关键点
imagnet:图像数据集(大量带标签数据)
GPU:高性能计算资源
LRN-
创新点
- 采用relu加速网络训练
- 采用Overlapping Pooling 提升指标
- 采用dropout减少过拟合(在fc层)(注意训练和测试阶段数据尺度的变化)
- 采用LRN提升泛化能力–不太用了(14年有paper讲)–现在采用batch nomlazation
- 采用随机裁剪翻转以及色彩扰动(论文里用的事pca,现在用pytorch里的colorj函数)增加数据多样性
实验结果分析
卷积核
- 卷积核呈现不同的频率、方向和颜色
- 两个gpu还分工学习
特征的相似性
相似图片的第二个全连接层输出特征向量的欧氏距离相近,可以利用Alexnet提取高级特征进行图像检索、图像聚类、图像编码
结构总结
总共8层(5卷积+3全连接层),LRN(1,2),pooling(1,2,5),
参数汇总(以第一个为例):
代码结构
alexnet_inference.py
1.只接受4D张量(B,C,H,W)=(batch size,3,224,224)
2.弃用LRN
3.卷积核数量改变
代码
注意在安装完torch可能在vs code里还会存在"ModuleNotFoundError: No module named ‘torch’",这时右键命令面板 搜索 python:select,选择带conda的解析器。
重要函数
python
1 | torchvision.transforms.FiveCrop(size) |
transforms.FiveCrop 就是在原图片的四个角和中心各截取一幅大小为 size 的图片, 而 transforms.TenCrop 就是在 transforms.TenCrop 基础上再进行水平或者竖直翻转(Flip),默认为水平翻转。
2.top k