ViT 视觉编码器

贡献者

这篇文章有帮助吗？

多模态视频大模型

多模态视频大模型学习笔记，聚焦细粒度感知与长视频理解两大痛点。详解动作分层建模、Token剪枝压缩、多任务训练及证据可视化方法，并介绍检索增强与层次化建模解决长视频遗忘与全局一致性难题。适合AI研究者、计算机视觉工程师及求职备考者阅读。

VQ-VAE学习笔记

VQ-VAE学习笔记：深入解析向量量化变分自编码器如何通过离散代码簿解决后验坍塌问题，提升生成质量。涵盖模型结构、编码器-解码器与代码簿工作机制，以及离散潜变量在图像、语音生成中的优势。适合正在学习生成模型、理解VAE变体及准备AI面试的研究生与求职者。