avatar

目录
Alexnet

关键点

imagnet:图像数据集(大量带标签数据)
GPU:高性能计算资源
LRN-

创新点

  • 采用relu加速网络训练
  • 采用Overlapping Pooling 提升指标
  • 采用dropout减少过拟合(在fc层)(注意训练和测试阶段数据尺度的变化)
  • 采用LRN提升泛化能力–不太用了(14年有paper讲)–现在采用batch nomlazation
  • 采用随机裁剪翻转以及色彩扰动(论文里用的事pca,现在用pytorch里的colorj函数)增加数据多样性

实验结果分析

卷积核

  • 卷积核呈现不同的频率、方向和颜色
  • 两个gpu还分工学习

特征的相似性

相似图片的第二个全连接层输出特征向量的欧氏距离相近,可以利用Alexnet提取高级特征进行图像检索、图像聚类、图像编码

结构总结



总共8层(5卷积+3全连接层),LRN(1,2),pooling(1,2,5),
参数汇总(以第一个为例):3×(11×11×96)+963\times (11\times 11\times 96) + 96

代码结构

alexnet_inference.py
1.只接受4D张量(B,C,H,W)=(batch size,3,224,224)
2.弃用LRN
3.卷积核数量改变

代码

注意在安装完torch可能在vs code里还会存在"ModuleNotFoundError: No module named ‘torch’",这时右键命令面板 搜索 python:select,选择带conda的解析器。

重要函数

python
1
2
torchvision.transforms.FiveCrop(size)
torchvision.transforms.TenCrop(size, vertical_flip=False)

transforms.FiveCrop 就是在原图片的四个角和中心各截取一幅大小为 size 的图片, 而 transforms.TenCrop 就是在 transforms.TenCrop 基础上再进行水平或者竖直翻转(Flip),默认为水平翻转。

2.top k

识别效果

文章作者: Sunxin
文章链接: https://sunxin18.github.io/2020/02/20/face/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 lalala
打赏
  • 微信
    微信
  • 支付宝
    支付宝

评论