重拾经典--CNN

短短十年，AI的进化仿佛按下快进键——从AlexNet在ImageNet石破天惊的一战，到ChatGPT以‘万亿参数’掀起对话革命；从卷积网络笨拙地识别手写数字，到多模态大模型从容解读世界。算力狂飙下，代码有了‘想象力’，数据炼成了‘通才’，曾经科幻的边界被一寸寸烧穿。我们站在算力与算法的风暴眼，目睹智能的边界以月为单位崩塌重建；在感叹技术革新的同时，偶尔也在思考之前的经典-CNN在当前任务中的作

liminhahaha

1861人浏览 · 2025-04-28 14:36:40

liminhahaha · 2025-04-28 14:36:40 发布

演进历程

1. 首次提出CNN的奠基性论文

论文标题: Backpropagation Applied to Handwritten Zip Code Recognition
作者: Yann LeCun, Bernhard Boser, John S. Denker, Donnie Henderson, Richard E. Howard, Wayne Hubbard, Lawrence D. Jackel
年份: 1989
会议: NeurIPS (Neural Information Processing Systems)
贡献:

首次将卷积层（convolutional layers）和池化层（pooling layers）结合，构建了早期CNN的雏形（后称LeNet）。
使用反向传播算法训练网络，成功应用于手写数字识别。
链接: LeCun et al. 1989

2. 推动CNN复兴的里程碑论文

论文标题: ImageNet Classification with Deep Convolutional Neural Networks
作者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
年份: 2012
会议: NeurIPS
贡献:

提出AlexNet，在ImageNet竞赛中以远超传统方法的成绩夺冠，引发深度学习革命。
首次使用ReLU激活函数、Dropout正则化和GPU加速训练。
链接: AlexNet Paper

3. 经典CNN模型演进

VGGNet

论文标题: Very Deep Convolutional Networks for Large-Scale Image Recognition
作者: Karen Simonyan, Andrew Zisserman
年份: 2014
会议: ICLR
贡献:

提出通过堆叠小卷积核（3×3）构建更深的网络（VGG16/VGG19），证明了深度对性能的重要性。
链接: VGGNet Paper

GoogLeNet (Inception v1)

论文标题: Going Deeper with Convolutions
作者: Christian Szegedy, Wei Liu, Yangqing Jia, et al.
年份: 2014
会议: CVPR
贡献:

提出Inception模块，通过多尺度卷积并行操作减少参数量，提升计算效率。
链接: GoogLeNet Paper

ResNet

论文标题: Deep Residual Learning for Image Recognition
作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
年份: 2015
会议: CVPR
贡献:

提出残差连接（Residual Block），解决了极深网络（如ResNet-152）的梯度消失问题。
成为后续几乎所有深度模型的标配组件。
链接: ResNet Paper

4. CNN在目标检测中的应用

R-CNN系列

R-CNN: Rich feature hierarchies for accurate object detection and semantic segmentation (Girshick et al., 2014)
Fast R-CNN (2015) 和 Faster R-CNN (2016): 逐步优化检测速度和精度，引入区域建议网络（RPN）。
链接: Faster R-CNN Paper

YOLO系列

论文标题: You Only Look Once: Unified, Real-Time Object Detection
作者: Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
年份: 2016
贡献:

提出单阶段检测框架YOLO，实现实时目标检测。
链接: YOLO Paper

5. CNN在图像分割中的应用

U-Net

论文标题: U-Net: Convolutional Networks for Biomedical Image Segmentation
作者: Olaf Ronneberger, Philipp Fischer, Thomas Brox
年份: 2015
会议: MICCAI
贡献:

提出对称的编码器-解码器结构，结合跳跃连接（skip connections），成为医学图像分割的基准模型。
链接: U-Net Paper

6. 轻量化CNN模型

MobileNet

论文标题: MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
作者: Andrew G. Howard, Menglong Zhu, Bo Chen, et al.
年份: 2017
贡献:

使用深度可分离卷积（Depthwise Separable Convolution）大幅减少参数量和计算量。
链接: MobileNet Paper

EfficientNet

论文标题: EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
作者: Mingxing Tan, Quoc V. Le
年份: 2019
贡献:

提出复合缩放方法（Compound Scaling），平衡网络深度、宽度和分辨率。
链接: EfficientNet Paper

总结

基础理论: LeNet (1989) → AlexNet (2012) → VGGNet (2014) → ResNet (2015)
应用扩展: R-CNN/YOLO（目标检测）、U-Net（分割）、MobileNet（轻量化）
延伸阅读: 可结合具体方向（如Transformer与CNN的结合、自监督学习等）进一步探索。

CNN对于当前大模型的重要贡献

1. 基础概念与设计思想的延续性

层次化特征提取：
CNN通过卷积层逐级提取局部到全局的特征（边缘→纹理→物体部件→整体），这种层次化思想在大模型中依然存在。例如，Transformer中的多层自注意力层也逐步融合不同粒度的语义信息。
参数共享与局部感知：
CNN的卷积核参数共享和局部连接机制，启发了大模型中稀疏注意力（如Sparse Transformer）和局部注意力窗口（如Swin Transformer）的设计，以降低计算复杂度。

2. 关键技术的直接继承

残差连接（ResNet）：
ResNet的残差结构被广泛用于大模型（如BERT、GPT、Vision Transformer），缓解梯度消失问题，支持更深的网络训练。
批归一化（BatchNorm）与层归一化（LayerNorm）：
CNN中为稳定训练提出的BatchNorm，在大模型中演变为LayerNorm（Transformer的核心组件），成为训练稳定的关键。
正则化技术（Dropout等）：
CNN中常用的Dropout、权重衰减等技术，在大模型中仍是防止过拟合的基础手段。

3. 大模型中的视觉组件

视觉大模型的基石：
许多视觉大模型（如Vision Transformer, Swin Transformer）仍依赖CNN预处理图像，或借鉴其设计。例如：
- ViT：将图像切分为Patch，类似CNN的局部感受野。
- Swin Transformer：引入CNN的层次化金字塔结构和局部窗口注意力。
多模态模型的视觉分支：
CLIP、Flamingo等模型处理图像时，通常使用ResNet或EfficientNet作为视觉编码器，CNN知识不可或缺。

智能机器人开发者大赛社区

「智能机器人开发者大赛」官方平台，致力于为开发者和参赛选手提供赛事技术指导、行业标准解读及团队实战案例解析;聚焦智能机器人开发全栈技术闭环，助力开发者攻克技术瓶颈，促进软硬件集成、场景应用及商业化落地的深度研讨。加入智能机器人开发者社区iRobot Developer，与全球极客并肩突破技术边界，定义机器人开发的未来范式！

更多推荐

桌面整理赛题描述

《桌面整理赛题描述》PDF附件