2025年计算机视觉模型TOP 30+

在过去的几十年里,计算机视觉技术发生了翻天覆地的变化,从用于手写数字识别的简单模型(如 LeNet)开始,发展到能够进行实时物体检测和语义分割的深度架构。重要的里程碑包括 AlexNet、VGG 和 ResNet 等基础 CNN,它们引入了 ReLU 激活和残差连接等创新技术。后来的 DenseNet、EfficientNet 和 ConvNeXt 等模型通过密集连接、复合缩放和现代设计进一步推动了这一领域的发展。物体检测器也从基于区域的方法(R-CNN、Faster R-CNN)发展到像 YOLO 这样的单级检测器,并在 YOLOv12 中达到顶峰。SAM、DINO、CLIP 和 ViT 等突破性技术正在重塑机器解读视觉数据的方式。在本文中,您将了解到 34 种顶级计算机视觉模型、它们所面临的挑战和用途。

开端:手写数字识别与早期CNN

早期的计算机视觉主要是识别 MNIST 数据集上的手写数字。这些模型简单而具有革命性,因为它们证明了机器可以从原始像素数据中学习有用的表征。最早的突破之一是由 Yann LeCun 设计的 LeNet(1998 年)。

LeNet 引入了卷积神经网络(CNN)的基本构件:用于特征提取的卷积层、用于下采样的池化层以及用于分类的全连接层。它为后来的深度架构奠定了基础。

想了解第一个模型是如何训练的,请观看此视频。

排名前30位的计算机视觉模型

下面我们将深入探讨深度学习革命模型:

1. AlexNet (2012)

AlexNet 改变了游戏规则。它在 2012 年的 ImageNet 挑战赛中获胜,证明了在 GPU 上训练的深度网络可以大大超越传统方法。

主要创新:

  • ReLU 激活:与早期的饱和激活函数(如 tanh 和 sigmoid)不同,AlexNet 推广使用 ReLU–一种非饱和激活函数,通过降低梯度消失的可能性,大大加快了训练速度。
  • 丢弃和数据扩充:为了解决过度拟合问题,研究人员引入了 dropout,并应用了大量数据增强技术,为更深层次的架构铺平了道路。

Source: AlexNet Model Architecture

2. VGG-16和VGG-19 (2014)

VGG 网络通过堆叠许多小型(3×3)卷积滤波器,使简单性和深度成为焦点。它们的统一架构不仅提供了直接、可重复的设计,使其成为理想的基线和迁移学习的最爱,而且奇数卷积层的使用确保了每个滤波器都有一个明确的中心。这种对称性有助于保持各层空间表示的一致性,并支持更有效的特征提取。

他们带来了什么?

  • 深度与简洁:VGG 通过小型滤波器专注于深度,证明了增加网络深度可以带来更好的性能。其简单明了的架构使其在基线和迁移学习中大受欢迎。

Source: VGG Models Architecture

拓展视野:Inception V3(2015-2016 年)

Source: “We need to go Deeper” – Inception Movie

电影《梦空间》可能是 Inception 架构的灵感来源,它突出强调了那句名言:“We must go deeper”。同样,Inception 模型通过同时在多个尺度上处理图像来深入研究图像。它们引入了并行卷积层的概念,在单个模块中加入不同大小的滤波器,使网络能够一次性捕捉精细和粗略的细节。这种多尺度方法不仅增强了特征提取能力,还提高了网络的整体表现力。

Source: Inception v3 Model Architecture

关键创新:

  • 1×1 卷积:与 VGG 统一的 3×3 架构相比,这些滤波器不仅降低了维度,从而减少了参数数量和计算成本,而且还在不牺牲空间分辨率的情况下注入了非线性。这种降维是 Inception 高效的主要因素,使其比 VGG 模型更轻便,同时仍能捕捉丰富的特征。

Source: Internal Inception Module Structure

  • 多尺度处理:Inception 模块通过并行卷积层同时处理多个滤波器大小的输入,使网络能够捕捉不同尺度的信息。这种多尺度方法尤其擅长处理图像中不同大小的物体。

3. ResNet (2015)

ResNet 通过引入跳越连接(也称为残差连接),使梯度直接从后面的层流回前面的层,从而彻底改变了深度学习。这一创新设计有效缓解了梯度消失问题,而这一问题曾使深度网络的训练变得极具挑战性。ResNet 各层学习的是残差函数(所需输出与输入之间的差值),而不是每层学习一个完整的变换,这样更容易优化。这种方法不仅能加快训练过程中的收敛速度,还能构建数百甚至数千层的网络。

关键创新:

  • 残差学习:ResNet 允许各层学习残差函数(所需输出与输入之间的差值),从而缓解了梯度消失问题,使训练具有数百个层的网络成为可能。
  • 跳转连接:这些连接可促进梯度流,在不大幅增加训练复杂度的情况下,训练出深度极高的模型。
  • 更深入的网络:残差学习带来的突破为更深入的架构铺平了道路,这些架构在 ImageNet 等基准测试中创造了新的记录,并影响了无数后续模型,包括 DenseNet 和 Inception-ResNet。

Source: ResNet Model Architecture

功能重用和效率的进一步提高

现在,让我们来探讨功能重用和效率方面的进一步进展:

4. DenseNet (2016)

DenseNet 基于跳转连接的理念,以前馈的方式将每一层与其他每一层连接起来。

主要创新:

  • 密集连接:与传统深度网络相比,这种设计促进了特征重用,改善了梯度流,减少了参数数量,同时仍能实现高性能。
  • 参数效率:由于各层可以重复使用前几层的特征,因此 DenseNet 所需的参数少于深度相似的传统深度网络。这种效率不仅降低了内存和计算需求,还最大限度地减少了过度拟合。
  • 增强的特征传播:通过串联输出而不是求和(如残差连接),DenseNet 保留了细粒度细节,并鼓励网络学习更多样化的特征,这也是其在基准测试中取得高性能的原因之一。
  • 隐式深度监督:每一层都能通过直接连接有效接收损失函数的监督,从而实现更稳健的训练和更好的收敛性。

Source: DenseNet Model Architecture

5. EfficientNet (2019)

EfficientNet 引入了一种复合缩放方法,可统一缩放深度、宽度和图像分辨率。

主要创新:

  • 复合缩放:通过仔细平衡这三个维度,效能网络实现了最先进的精确度,与以前的网络相比,参数明显减少,计算成本也更低。
  • 优化性能:通过仔细调整网络各维度之间的平衡,效能网络达到了一个甜蜜点,即精度的提高不会以参数或 FLOP 的过高增长为代价。
  • 架构搜索:通过神经架构搜索(NAS)进一步完善了效能网络的设计,这有助于确定每个规模的最佳配置。这一自动化流程提高了网络的效率和对各种部署方案的适应性。
  • 资源感知设计:EfficientNet 的计算需求较低,因此特别适合部署在资源有限的移动和边缘设备上。

Source: EfficientNet Model Architecture

“MBConv” 代表移动倒置瓶颈卷积Mobile Inverted Bottleneck Convolution)。它是最初在 MobileNetV2 中推广的一个构建模块,后来被效能网络采用。

6. ConvNeXt (2022)

ConvNeXt 代表着 CNN 的现代演进,它从视觉变换器最近的成功中汲取灵感,同时保留了卷积架构的简单性和高效性。

主要创新:

  • 现代化设计:ConvNeXt 从变压器架构中汲取灵感,重新思考传统的 CNN 设计,缩小了 CNN 与 ViT 之间的性能差距,同时保持了 CNN 众所周知的高效性。
  • 增强的特征提取:ConvNeXt 采用了先进的设计方案,如改进的归一化方法、修正的卷积块和更好的下采样技术,从而提供了卓越的特征提取和表示能力。
  • 可扩展性:ConvNeXt 可有效扩展,适用于从资源有限的设备到高性能服务器等各种任务和部署场景。ConvNeXt 的设计理念强调,无需放弃卷积网络的基本原理,对现有架构进行现代化改造就能获得巨大收益。

Source:ConvNeXt Model Architecture

未来一瞥:超越CNN

虽然传统的 CNN 奠定了基础,但这一领域后来又出现了新的架构,如视觉转换器(ViT、DeiT、Swin Transformer)和 CLIP 等多模态模型,它们进一步扩展了计算机视觉系统的功能。这些模型通过结合视觉和文本数据,越来越多地用于需要跨模态理解的应用中。它们推动了图像字幕、视觉问题解答等领域的创新解决方案。

基于区域的检测器的演变:从R-CNN到Faster R-CNN

在 YOLO 等单级检测器出现之前,基于区域的方法是物体检测的主流策略。基于区域的卷积神经网络(R-CNN)引入了两步流程,从根本上改变了我们检测图像中物体的方式。让我们深入了解一下这一系列模型的演变过程。

7. R-CNN开创性的区域提案

R-CNN(2014 年)是最早将 CNN 的强大功能与物体检测相结合的方法之一。其方法可概括为两个主要阶段:

  • 区域建议生成:R-CNN 首先使用选择性搜索(Selective Search)等算法从图像中生成约 2000 个候选区域(或区域建议)。这些建议有望涵盖所有潜在对象。
  • 特征提取和分类:系统会将每个提议区域扭曲为固定大小,并通过深度 CNN(如 AlexNet 或 VGG)提取特征向量。然后,一组特定类别的线性支持向量机(SVM)会对每个区域进行分类,而单独的回归模型则会完善边界框。

Source: RCNN Model Architecture

关键创新与挑战:

  • 突破性性能:R-CNN 证明,与传统的手工特征相比,CNN 能显著提高物体检测的准确性。
  • 计算瓶颈:使用 CNN 处理每幅图像上千个区域的计算成本高昂,推理时间长。
  • 多阶段管道:不同阶段的分离(区域提议、特征提取、分类和边界框回归)使训练过程变得复杂而繁琐。

8. Fast R-CNN简化流程

R-CNN (2015) 通过引入几项关键改进,解决了 R-CNN 的许多低效问题:

  • 特征提取的单一前向传递:Fast R-CNN 通过 CNN 一次处理整个图像,创建一个卷积特征图,而不是单独处理区域。然后将区域建议映射到该特征图上,从而显著减少冗余。
  • ROI 池:Fast R-CNN 的 ROI 池层可从共享特征图上的区域建议中提取固定大小的特征向量。这样,网络就能高效处理不同大小的区域。
  • 端到端训练:通过将分类和边界框回归结合到一个网络中,Fast R-CNN 简化了训练管道。多任务损失函数用于联合优化这两项任务,从而进一步提高检测性能。

Source: Fast RCNN Model Architecture

主要优势

  • 提高速度:与 R-CNN 相比,通过避免冗余计算和利用共享特征,Fast R-CNN 大幅提高了推理速度。
  • 简化管道:统一的网络架构允许端到端训练,使模型更易于微调和部署。

9. Faster R-CNN:实时建议

Faster R-CNN (2015)通过解决区域建议瓶颈问题实现了下一次飞跃:

  • 区域建议网络(RPN):Faster R-CNN 以完全卷积的区域建议网络(RPN)取代了选择性搜索等外部区域建议算法。RPN 与主检测网络相集成,共享卷积特征,近乎实时地生成高质量的区域建议。
  • 统一架构:RPN 和 Faster R-CNN 检测网络合并为一个端到端可训练模型。这种整合进一步简化了检测流程,减少了计算量和延迟。

Source: Faster RCNN Model Architecture

关键创新:

  • 端到端训练:更快的 R-CNN 通过使用神经网络进行区域建议,加快了处理速度,增强了实际应用性。
  • 速度和效率:更快的 R-CNN 使用神经网络进行区域建议,缩短了处理时间,提高了实际应用性。

10. 超越Faster R-CNN:Mask R-CNN

Mask R-CNN(2017 年)虽然不属于原始 R-CNN 系列,但它在 Faster R-CNN 的基础上增加了一个用于实例分割的分支:

  • 实例分割:掩码 R-CNN 在像素级别对物体形状进行分类、完善边界框和预测二进制掩码。
  • ROIAlign:ROIAlign 是对 ROI pooling 的改进,它避免了对特征进行苛刻的量化,从而获得更精确的掩码预测。

Source: Mask RCNN Model Architecture

影响:Mask R-CNN 是实例分割的标准,为检测和分割任务提供了一个多功能框架。

YOLO的演变:从YOLOv1到YOLOv12

YOLO(You Only Look Once)系列物体检测器不断突破速度和精度的极限,重新定义了实时计算机视觉。下面简要介绍了每个版本的发展历程:

Source: YOLO Releases Yet

11. YOLOv1 (2016年)

最初的 YOLO 将整个物体检测管道统一到一个卷积网络中。它将图像划分为网格,并在一次前向传递中直接预测边界框和类概率。尽管 YOLOv1 在速度上具有革命性的意义,但它在准确定位小物体和处理重叠检测方面仍有困难。

12. YOLOv2/YOLO9000(2017年)

在原始设计的基础上,YOLOv2 引入了锚点框以改进边界框预测,并纳入了批量归一化和高分辨率分类器。与前代产品相比,YOLOv2 能够在检测和分类数据集上进行训练(因此被称为“YOLO9000”),在降低计算成本的同时显著提高了性能。

13. YOLOv3 (2018年)

YOLOv3 采用了更深入的 Darknet-53 主干网,并引入了多尺度预测。通过在三个不同尺度上进行预测,它能更好地处理各种大小的物体,并提高了准确性,使其成为适用于各种真实世界场景的强大模型。

Source: YOLO v3 Model Architecture

14. YOLOv4 (2020年)

YOLOv4 通过跨阶段部分网络(CSP)、空间金字塔池化(SPP)和路径聚合网络(PAN)等增强功能进一步优化了检测管道。这些创新提高了准确性和速度,解决了类不平衡和改进特征融合等难题。

15. YOLOv5(2020年)

YOLOv5 由 Ultralytics 在 PyTorch 平台上发布,强调易用性、模块化和部署灵活性。它提供了从纳米到超大型的多种模型尺寸,使用户能够根据不同的硬件能力在速度和准确性之间取得平衡。

Source: YOLO v5 Model Architecture

16. YOLOv6 (2022年)

YOLOv6 引入了进一步的优化,包括改进的主干网设计和先进的训练策略。其架构侧重于最大限度地提高计算效率,因此特别适合对实时性要求极高的工业应用。

17. YOLOv7 (2022年)

YOLOv7 继续演进,对特征聚合进行了微调,并引入了新型模块,以提高速度和准确性。它在训练技术和层优化方面的改进使其成为实时物体检测(尤其是在边缘设备上)的顶级竞争者。

18. YOLOv8(2023年)

YOLOv8 通过整合分割、图像分类甚至姿态估计等功能,将模型的多功能性扩展到了物体检测之外。它建立在 YOLOv5 和 YOLOv7 的基础上,同时在广泛的应用中提供更好的可扩展性和鲁棒性。

Source: YOLO v8 Model Architecture

19. YOLOv9 (2024年)

YOLOv9 引入了可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)等关键架构创新。这些变化提高了网络的效率和准确性,特别是在轻量级模型中保留了重要的梯度信息。

20. YOLOv10 (2024年)

YOLOv10 进一步完善了设计,通过一对一的头部方法消除了推理过程中对非最大抑制(NMS)的需求。该版本通过采用轻量级分类头和空间通道解耦下采样等先进技术,优化了速度和准确性之间的平衡。不过,其严格的一对一预测策略有时会使其在处理重叠对象时效果不佳。

21. YOLOv11(2024年9月)

YOLOv11 是 Ultralytics 发布的另一个版本,它集成了跨阶段部分自注意(C2PSA)等现代模块,并用更高效的替代模块(如 C3k2 模块)取代了旧模块。这些改进提高了模型的特征提取能力和检测小型重叠物体的能力,为 YOLO 系列树立了新的标杆。

Source: YOLO v11 Architecture

22. YOLOv12(2025年2月)

最新版本 YOLOv12 引入了以注意力为中心的设计,以实现最先进的实时检测。YOLOv12 融合了区域注意力(A2)模块和残差高效层聚合网络(R-ELAN)等创新技术,在高精度和快速推理之间取得了平衡。虽然其复杂的架构增加了计算开销,但它为在物体检测中实现更细致的上下文理解铺平了道路。

Source: YOLO v12 Architecture

Source: YOLOv12 architecture showcasing the new Area Attention (A2) module and Residual Efficient Layer Aggregation Networks (R-ELAN).

如果您想了解有关 YOLO v12 模型的更多信息,请 点击此处。

23. 单次多框检测器(SSD)

单次多框检测器(SSD)是一种创新的物体检测算法,通过深度卷积神经网络的单次前向传递实现快速、准确的检测。与先生成区域建议再进行分类的两阶段检测器不同,SSD 可同时直接预测边界框位置和类别概率,因此在实时应用中异常高效。

主要功能和创新
  • 统一的单枪架构:SSD 一次性处理图像,将对象定位和分类整合到一个网络中。这种统一的方法消除了与单独区域建议阶段相关的计算开销,实现了快速推理。
  • 多尺度特征图:通过在基础网络(通常是像 VGG16 这样的截断分类网络)上添加额外的卷积层,SSD 可以生成不同分辨率的多个特征图。这种设计可以让检测器有效捕捉不同大小的物体–高分辨率地图用于捕捉小物体,低分辨率地图用于捕捉大物体。
  • 默认(锚定)框:SSD 会在特征地图的每个位置分配一组预定义的默认边界框(也称为锚点框)。这些框有不同的比例和长宽比,以适应不同形状的物体。然后,网络会预测对这些默认框的调整(偏移),以更好地适应图像中的实际物体,并预测每个物体类别的置信度分数。
  • 多尺度预测:每个特征图都能独立进行预测。这种多尺度方法意味着 SSD 并不局限于一种物体尺寸,而是可以同时检测图像中的大、中、小型物体。
  • 高效的损失和训练策略:SSD 采用综合损失函数,包括用于边界框回归的定位损失(通常为 Smooth L1 损失)和用于分类任务的置信度损失(通常为 softmax 损失)。为了处理大量背景默认框与相对较少的前景默认框之间的不平衡问题,SSD 采用硬负挖掘技术,将训练重点放在最具挑战性的负实例上。

Source: SSD Model Architecture

架构概述
  • 基础网络:SSD 通常从预先训练好的 CNN(如 VGG16)开始,该 CNN 在全连接层之前已被截断。该网络可从输入图像中提取丰富的特征表征。
  • 附加卷积层:在基础网络之后,会添加额外的层,以逐步缩小空间维度。这些附加层可生成多种尺度的特征图,对于检测各种尺寸的物体至关重要。
  • 默认方框机制:在这些多尺度特征图的每个空间位置,都会放置一组不同尺度和长宽比的默认方框。对于每个默认方框,网络都会进行预测:
    • 边框偏移:根据精确的对象位置调整默认方框。
    • 类得分:每个物体类别出现的概率。
  • 端到端设计:从特征提取到预测层的整个网络都是以端到端的方式进行训练的。这种综合训练方法有助于同时优化定位和分类。
影响和应用案例

SSD 的高效、单镜头设计使其成为自动驾驶、视频监控和机器人等需要实时物体检测的应用的热门选择。SSD 能够在单幅图像中检测不同尺度的多个物体,因此特别适用于对速度和准确性要求极高的动态环境。

SSD的结论

SSD 是一种兼具速度和准确性的开创性物体检测模型。SSD 创新性地使用了多尺度卷积边界框预测,因此能有效捕捉不同形状和大小的物体。引入更多精心选择的默认边界框,增强了其适应性和性能。

SSD 是一种多功能的独立物体检测解决方案,也是大型系统的基础。它兼顾了速度和精度,对实时物体检测、跟踪和识别具有重要价值。总之,SSD 代表了计算机视觉领域的重大进步,能有效地应对现代应用所面临的挑战。

主要启示
  • 实证结果表明,SSD 在准确性和速度方面往往优于传统的物体检测模型。
  • 固态硬盘采用多尺度方法,能有效检测同一图像中不同大小的物体。
  • SSD 是一种适用于各种计算机视觉应用的多功能工具。
  • SSD 以其实时或接近实时的物体检测能力而闻名。
  • 使用更多的默认方框可以让 SSD 更好地适应复杂场景和具有挑战性的物体变化。

24. U-Net:语义分割的支柱

U-Net 最初是为生物医学图像分割而开发的。它采用对称编码器-解码器架构,其中编码器通过卷积和池化逐步提取上下文信息,而解码器则使用上采样层来恢复空间分辨率。跳转连接将编码器和解码器中的相应层连接起来,从而实现了细粒度特征的重复使用。

Source: UNET Model Architecture

领域应用
  • 生物医学成像:U-Net 是 MRI 和 CT 扫描中肿瘤和器官分割等任务的黄金标准。
  • 遥感与卫星图像:其精确定位能力使其适用于土地覆盖分类和环境监测。
  • 一般图像分割:广泛应用于需要像素预测的应用,包括自动驾驶(如道路分割)和视频监控。
架构概述
  • 编码器-解码器结构:收缩路径捕捉上下文,扩张路径恢复分辨率。
  • 跳转连接:这些连接可确保在上采样过程中保留并重复使用高分辨率特征,从而提高定位精度。
  • 对称性:网络的对称设计有利于高效学习和精确重建分割图。
主要启示
  • U-Net 的设计针对精确的像素级分割进行了优化。
  • 它在对精细细节定位至关重要的领域表现出色。
  • 该架构的简洁性和鲁棒性使其成为分割研究的基础模型。

25. Detectron2:全面的检测工具包

Detectron2 是 Facebook AI Research 在 PyTorch 中构建的下一代物体检测和分割平台。它将 Faster R-CNN、Mask R-CNN 和 RetinaNet 等最先进的算法集成到一个统一的框架中,简化了模型开发、训练和部署。

Source: Detectron2 Model Architecture

领域应用
  • 自动驾驶:实现对车辆、行人和路标的稳健检测和分割。
  • 监控:广泛应用于安防系统,实时检测和跟踪个人与物体。
  • 工业自动化:应用于质量控制、缺陷检测和机器人操纵任务。
架构概述
  • 模块化设计:Detectron2 灵活的组件(骨干、颈部、头部)允许轻松定制和集成不同的算法。
  • 预训练模型:丰富的预训练模型库支持针对特定应用的快速原型开发和微调。
  • 端到端框架:提供内置数据增强、训练程序和评估指标,以简化工作流程。
主要启示
  • Detectron2 为尖端物体检测和分割提供了一站式解决方案。
  • 其模块性和广泛的预训练选项使其成为研究和实际应用的理想选择。
  • 该框架与 PyTorch 的集成简化了各个领域的采用和定制。

26. DINO:自我监督学习的革命性变革

DINO(无标签蒸馏)是一种自监督学习方法,它利用视觉转换器来学习稳健的表征,而无需依赖标记数据。通过匹配图像不同增强视图之间的表征,DINO 能有效提炼出对下游任务有用的特征。

领域应用
  • 图像分类:通过 DINO 学习到的丰富的自监督表征可进行微调,以实现高精度分类。
  • 物体检测与分割:其特征可用于检测任务,即使标注数据有限,也能提高模型的性能。
  • 无监督特征提取:非常适合注释数据集稀缺的领域,如卫星图像或利基工业应用。
架构概述
  • 变压器骨干网:DINO 采用变换器架构,擅长对图像中的长距离依赖关系和全局上下文进行建模。
  • 自我扩展:网络通过比较同一图像的不同视图进行学习,在没有明确标签的情况下对齐表示。
  • 多视图一致性:这可确保特征对光照、比例和视角的变化具有鲁棒性。

Source: DINO Model Architecture

主要启示
  • DINO 是一种功能强大的工具,适用于标注数据有限的场景,大大减少了人工标注的需要。
  • 它的自监督框架可为各种计算机视觉任务提供强大且可转移的特征。
  • DINO 基于变压器的方法凸显了现代视觉系统向无监督学习的转变。

27. CLIP:连接视觉与语言

CLIP(对比语言-图像预训练)是 OpenAI 开发的一个具有里程碑意义的模型,可在共享嵌入空间中对齐图像和文本。CLIP 在海量图像-文本对数据集上进行训练,学会将视觉内容与自然语言联系起来。这种对齐方式使其能够执行零镜头分类和其他多模态任务,而无需针对具体任务进行微调。

领域应用
  • 零镜头分类:CLIP 只需使用自然语言提示,就能识别各种对象,即使未针对特定分类任务进行明确训练也是如此。
  • 图像标题和检索:其共享嵌入空间可实现有效的跨模态检索–无论是查找与文本描述相匹配的图像,还是根据视觉输入生成标题。
  • 创意应用:从艺术生成到内容管理,CLIP 将文本与图像连接起来的能力使其成为许多创意和解释领域的宝贵工具。
结构概述
  • 双编码器设计:CLIP 采用两个独立的编码器,一个用于图像(通常是视觉转换器或 CNN),另一个用于文本(转换器)。
  • 对比学习:对模型进行训练,以最大化匹配图像-文本对之间的相似性,同时最小化不匹配图像-文本对之间的相似性,从而在共享的潜在空间中有效地对齐两种模式。
  • 共享嵌入空间:这种统一的空间可实现无缝的跨模态检索和零镜头推理,从而使 CLIP 具有非常广泛的用途。

Source: CLIP Model Architecture

主要启示
  • CLIP 通过结合自然语言重新定义了视觉理解,为零镜头分类提供了一个强大的框架。
  • 其多模态方法为图像字幕、视觉问题解答等高级应用铺平了道路。
  • 该模型影响了新一代视觉语言系统,为 BLIP 等后续创新奠定了基础。

28. BLIP:引导式语言图像预训练

BLIP 以 CLIP 等模型的成功为基础,引入了一种结合对比学习和生成学习的引导方法。BLIP 的设计目的是加强视觉和文本模式之间的协同作用,使其特别适用于需要从图像中理解和生成自然语言的任务。

领域应用
  • 图像字幕:BLIP 擅长为图像生成自然语言描述,在视觉内容和人类语言之间架起了一座桥梁。
  • 视觉问题解答(VQA):通过有效整合视觉和文本线索,BLIP 可以准确回答有关图像的问题。
  • 多模态检索:与 CLIP 相似,BLIP 的统一嵌入空间可根据文本查询高效检索图像(反之亦然)。
  • 创意内容生成:BLIP 的生成功能可用于艺术和创意应用,在这些应用中,从视觉数据中合成叙述或上下文是必不可少的。
架构概述
  • 灵活的编码器-解码器结构:根据任务的不同,BLIP 可以采用双编码器设置(类似于 CLIP)来完成检索任务,也可以采用编码器-解码器框架来完成生成任务,如字幕和 VQA。
  • 引导训练:BLIP 使用引导机制来迭代完善其语言-视觉对齐,这有助于学习稳健的、与任务无关的表征,即使是在注释数据有限的情况下。
  • 多目标学习:它将对比学习(对齐图像和文本)与生成目标(生成连贯的语言)相结合,从而形成了一个既能有效理解又能根据视觉输入生成自然语言的模型。

Source: BLIP Model Architecture

主要启示
  • BLIP 扩展了 CLIP 建立的视觉语言范式,增加了生成组件,使其成为需要从图像创建语言的任务的理想选择。
  • 它的引导方法可产生稳健、细粒度的多模态表征,突破了图像字幕和 VQA 的极限。
  • BLIP 在处理判别和生成任务方面的多功能性使其成为现代多模态人工智能工具包中的重要工具。

29. 视觉转换器(ViT)及其后继者

视觉转换器(ViT)将最初为自然语言处理而设计的转换器架构应用于计算机视觉任务,标志着一种模式的转变。ViT 将图像视为一连串补丁,类似于文本中的词块,因此它能比传统的 CNN 更有效地模拟全局依赖关系。

领域应用
  • 图像分类:ViT 在 ImageNet 等基准测试中取得了一流的性能,尤其是在大规模场景中。
  • 迁移学习:ViT 学习到的表征非常适用于物体检测、分割等任务。
  • 多模态系统:ViT 是许多整合视觉和文本信息的现代多模态模型的支柱。
架构概述
  • 补丁嵌入:ViT 将图像划分为固定大小的补丁,然后将其扁平化并线性投射到嵌入空间中。
  • 变换器编码器:补丁嵌入序列由变换器编码器层处理,利用自我注意捕捉长距离依赖关系。
  • 位置编码:由于变换器缺乏固有的空间结构,因此需要添加位置编码以保留空间信息。

Source: ViT Model Architecture

后继者及其创新

DeiT(数据高效图像转换器):

  • 主要创新:通过蒸馏实现更高效的数据训练,即使在数据有限的情况下也能实现高性能。
  • 应用:适用于无法获得大型数据集的情况。

斯温变换器

  • 主要创新:通过移动窗口引入分层表示,实现高效的多尺度特征提取。
  • 应用:适用于需要详细、局部信息的任务,如物体检测和分割。

其他变体(BEiT、T2T-ViT、CrossViT、CSWin Transformer):

  • 主要创新:这些后继者改进了标记化,提高了计算效率,并更好地平衡了局部和全局特征表示。
  • 应用:它们可执行从图像分类到复杂场景理解等一系列任务。
主要启示
  • 视觉变形器利用全局自我关注为整个图像的关系建模,开创了计算机视觉的新纪元。
  • DeiT 和 Swin Transformer 等后继产品以 ViT 为基础,解决了数据效率和可扩展性方面的难题。
  • 基于变换器的模型的发展正在重塑计算机视觉,使新的应用成为可能,并显著提高了既定基准的性能。

任意细分模型(SAM)和 SAM 2:交互式细分的变革

由 Meta AI 开发的 Segment Anything Model (SAM) 及其后续产品 SAM 2 是一种开创性的模型,旨在使物体分割更容易使用、更高效。这些模型已成为内容创作、计算机视觉研究、医学影像和视频编辑等行业不可或缺的工具。

让我们来分析一下它们的架构、演变,以及它们如何与 YOLO 等框架无缝集成,用于实例分割。

30. SAM:架构和主要功能

  • 视觉转换器(ViT)骨干: SAM 使用功能强大的基于 ViT 的编码器来处理输入图像,学习深层次、高分辨率的特征图。
  • 可提示分割: 用户可提供点、方框或文本提示,SAM 无需额外培训即可生成对象遮罩。
  • 掩码解码器: 解码器处理图像嵌入和提示,生成高精度的分割掩码。
  • 零镜头分割: SAM 可以分割它在训练过程中从未见过的图像中的物体,显示出卓越的泛化能力。

Source: SAM 2 Model Architecture

Source: SAM Research Paper

图像编码器

图像编码器是 SAM 架构的核心,它是一个复杂的组件,负责处理输入图像并将其转换为一组全面的特征。该编码器采用基于变换器的方法,就像在高级 NLP 模型中看到的那样,将图像压缩为一个密集的特征矩阵。该矩阵是模型识别各种图像元素的基础。

提示编码器

提示编码器是 SAM 有别于传统图像分割模型的一个独特方面。它可以解释各种形式的输入提示,无论是基于文本的提示、点提示、粗略遮罩提示,还是这些提示的组合提示。这样,模型就能根据输入的要求,专注于图像中的特定区域或对象。

掩码解码器

掩码解码器是进行神奇分割的地方。它综合来自图像和提示编码器的信息,生成准确的分割掩码。该组件负责最终输出,确定图像中每个片段的精确轮廓和区域。

对于有效的图像分割来说,这些组件之间如何相互作用与它们的功能同样重要: 图像编码器首先要详细了解整个图像,将其分解为引擎可以分析的特征。然后,提示编码器添加上下文,根据提供的输入(无论是简单的点还是复杂的文本描述)集中模型的注意力。最后,遮罩解码器利用这些综合信息对图像进行精确分割,确保输出与输入提示的意图一致。

31. SAM 2:进步与新功能

  • 视频分割:SAM 2 将其功能扩展到了视频领域,只需少量用户输入即可实现逐帧对象跟踪。
  • 高效推理:优化的模型架构缩短了推理时间,实现了实时应用。
  • 提高掩码精度:完善的解码器设计和更好的损失函数提高了掩码质量,即使在复杂的场景中也是如此。
  • 内存效率:SAM 2 可处理更大的数据集和更长的视频序列,而不会耗尽硬件资源。
与用于实例分割的 YOLO 兼容
  • SAM 可与YOLO(You Only Look Once模型搭配,用于实例分割任务。
  • 工作流程:YOLO 可快速检测对象实例,并提供边界框作为 SAM 的提示,SAM 可使用高精度掩码细化这些区域。
  • 使用案例: 这种组合广泛应用于实时物体跟踪、自动驾驶和医学图像分析。
主要启示
  • 多功能性: SAM 和 SAM 2 可适应图像和视频,因此适用于动态环境。
  • 用户输入最少: 这些模型基于提示的方法简化了分割任务,减少了手动注释的需要。
  • 可扩展性: 从小规模的图像任务到长时间的视频序列,SAM 模型都能处理各种工作负载。
  • 面向未来: 它们与 YOLO 等先进模型的兼容性确保了它们在计算机视觉领域不断发展的过程中依然具有价值。

SAM 和 SAM 2 将尖端的深度学习技术与实用的可用性相结合,为交互式分割设定了新的标准。无论您是要构建视频编辑工具还是推进医学研究,这些模型都能提供强大、灵活的解决方案。

特别推荐
  1. ByteTrack 是一种先进的多对象跟踪算法,因其能够可靠地在视频帧中保持对象特征而大受欢迎。其强大的性能和效率使其成为自动驾驶、视频监控和机器人应用的理想选择。
  2. MediaPipe 由谷歌开发,是一个多功能框架,可为实时 ML 任务提供预构建的跨平台解决方案。从手部跟踪和人脸检测到姿态估计和物体跟踪,MediaPipe 的即用管道实现了高质量计算机视觉解决方案的平民化,使研究和工业领域的快速原型开发和部署成为可能。
  3. Florence 由微软公司开发,是一种统一的视觉语言模型,旨在高效处理各种计算机视觉任务。通过利用在海量数据集上训练的基于变换器的架构,Florence 可以执行图像标题、对象检测、分割和视觉问题解答。它的多功能性和一流的准确性使其成为研究多模态人工智能系统、内容理解和人机交互的研究人员和开发人员的宝贵工具。

小结

从简陋的手写数字识别到今天的尖端模型,计算机视觉模型的发展历程展示了非凡的创新。LeNet 等先驱者引发了一场革命,AlexNet、ResNet 等对其进行了改进,DenseNet 和 ConvNeXt 推动了效率和可扩展性的进步。物体检测从 R-CNN 发展到迅速的 YOLOv12,而 U-Net、SAM 和 Vision Transformers 则在分割和多模态任务方面表现出色。就我个人而言,我更喜欢 YOLOv8,因为它速度快,尽管 SSD 和 Fast R-CNN 以较慢的速度提供了更高的准确性。

© 版权声明
THE END
喜欢就支持一下吧
点赞20 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容