cloudinwind's blog
Paper Reading: CV 3Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

前言#

计算机视觉基础模型关注从图像、视频和点云中学习可迁移的表征与几何结构。相关工作覆盖经典视觉骨干、自监督预训练、开放词表检测、通用分割、点云表征与视觉几何,核心作用是为分类、检测、分割、三维理解、场景重建和机器人感知等任务提供稳定的基础感知能力。

InternImage#

Arxiv ID 2211.05778
幻觉翻译 2211.05778
publication CVPR2023

用 deformable convolution 构建可规模化 CNN 视觉基础模型,在检测和分割等 dense prediction 任务上表现强。

InternImage 的目标是证明 CNN 也可以像 ViT 一样受益于大参数量和大规模数据。论文认为传统卷积的强 inductive bias 带来效率和稳定性,但也限制了长程依赖和输入自适应空间聚合;而 dense prediction 任务又非常需要大感受野和高分辨率特征。因此作者选择 deformable convolution 作为核心算子,试图在 CNN 框架里获得类似 self-attention 的动态采样能力。

核心改动是 DCNv3。它从 DCNv2 出发,保留可学习 offset 和 modulation 带来的 adaptive spatial aggregation,但做了几处适合大模型训练的调整:共享采样点之间的投影权重以降低参数和显存成本,引入 multi-group 机制让不同 group 学习不同空间聚合模式,并对 modulation scalars 在采样点维度归一化,使训练更稳定。这些设计让 3×3 deformable convolution 能同时具备较大有效感受野、输入相关采样和相对可控的计算成本。

架构上,InternImage 仍是分层 CNN backbone:stem 和 downsampling 沿用常规 CNN 设计,基本 block 则围绕 DCNv3 构建,并吸收 Transformer/现代 backbone 中常见的 LayerNorm、FFN、残差堆叠和 scaling rule。论文从 30M 到 1B 参数探索模型规模,并在 427M 级别训练数据上训练 InternImage-H,重点验证 CNN 是否能在大数据大模型设定下追上甚至超过大型 ViT。

实验覆盖 ImageNet、COCO、ADE20K 等分类、检测和语义分割任务。论文报告 InternImage-B 仅用 ImageNet-1K 训练达到 84.9% top-1;InternImage-H 在 427M 数据上达到 89.6% top-1,并在 COCO test-dev 达到 65.4 mAP、ADE20K 达到 62.9 mIoU。它的意义是给“大规模 CNN 视觉基础模型”提供了一个强案例;局限是 DCN 算子吞吐仍不如普通卷积/部分 ViT 友好,工程部署复杂度也高于标准 CNN。

推荐指数:

V-JEPA#

Arxiv ID 2404.08471
幻觉翻译 2404.08471
publication pending

Meta 的视频自监督表征模型,用 latent feature prediction 学习视频中的时空表示,不依赖文本、负样本或像素重建。

V-JEPA 的核心问题是:只靠 feature prediction,能否从视频中学到强视觉表征?它不使用文本、负样本、人类标注、预训练图像编码器,也不做像素级重建;而是把视频中的一部分时空区域作为 context,预测另一部分区域在 latent feature space 中的表示。相比 VideoMAE 这类 pixel reconstruction,V-JEPA 更强调抽象语义和动态结构,而不是复原低层纹理。

训练框架是 joint-embedding predictive architecture。模型包含 x-encoder、y-encoder 和 predictor:x-encoder 只看未遮挡的视频 token,y-encoder 处理完整视频并提供目标区域的特征,predictor 根据 context features 和带位置编码的 mask tokens 去预测目标区域的 latent features。y-encoder 不是直接反向传播更新,而是 x-encoder 的 EMA 版本,这样可以提供较稳定的目标并避免表示坍塌。损失使用特征空间中的 L1 regression。

masking 设计也很关键。论文采用 3D multi-block masking,把空间连续块沿整个时间维度重复,减少视频时空冗余造成的信息泄露。它混合 short-range masks 和 long-range masks:前者覆盖较小局部区域,后者覆盖大区域,平均遮挡比例接近 90%。这种任务迫使模型利用视频上下文预测缺失区域的高层表示,而不是简单从邻近像素复制。模型本体使用 ViT-L/16、ViT-H/16 等视频 Transformer,视频 patch 是 16×16 像素、跨 2 帧的时空 token。

实验上,V-JEPA 在 VideoMix2M 上预训练,并用 frozen backbone + attentive probe 评估 Kinetics-400、Something-Something-v2、ImageNet-1K 等任务。论文报告最大 ViT-H/16 模型在冻结评估下达到 K400 81.9%、SSv2 72.2%、IN1K 77.9%;特征预测相比像素预测在冻结评估中更强,尤其在需要细粒度时间理解的 SSv2 上优势明显。fine-tuning 时 V-JEPA 也接近 VideoMAE/MVD 等像素预测方法。总体看,它是 JEPA 思路在视频自监督上的重要实证,但训练仍依赖大规模视频数据和较重的 ViT,且空间定位/密集任务能力不是本文重点。

推荐指数:
Paper Reading: CV 3
https://vercel.cloudinwind4132.top/blog/paper-reading-cv3
Author 云之痕
Published at December 26, 2025
Comment seems to stuck. Try to refresh?✨