PyTorch模型的结构摘要

from torchsummary import summary

model = FashionCNN().to(device)  # Assuming your model is already defined and moved to the device
summary(model, input_size=(1, 28, 28))  # (Channels, Height, Width)

下面我将为你详细解释这段代码的含义、实现原理、用途以及使用时的注意事项。

### 一、代码整体含义

这段代码的主要功能是**打印出PyTorch模型的结构摘要**。它会清晰地展示模型中每一层的类型、输出维度以及参数数量，并计算模型的总参数量和占用内存大小。这是深度学习模型构建和调试阶段非常常用的一步。

### 二、逐行代码解释

1. *from torchsummary import summary**

- 从 torchsummary 库中导入 summary 函数torchsummary 是一个专门为PyTorch设计的第三方工具包，用于可视化模型结构（类似于Keras中的 model.summary()）。

2. *model = FashionCNN().to(device)**

- 实例化一个名为 FashionCNN 的自定义神经网络模型（从命名推测，这通常是一个用于Fashion-MNIST数据集的CNN模型）。

- .to(device) 表示将模型移动到指定的计算设备上。通常 device 会被事先定义为 "cuda" (GPU) 或 "cpu"。这一步确保了模型参数在正确的硬件上准备就绪，以便后续进行前向传播计算。

3. *summary(model, input_size=(1, 28, 28))**

- 调用 summary 函数来查看模型结构。

- model：传入需要分析的模型实例。

- input_size=(1, 28, 28)：指定模型期望的输入张量维度。元组的三个元素分别代表 (通道数 Channels, 高度 Height, 宽度 Width)。对于Fashion-MNIST数据集，图片通常是单通道灰度图（1），分辨率为28x28像素。

### 三、实现原理

torchsummary 的工作原理被称为**静态图追踪**或**前向探针**：

1. 当你提供 input_size 时summary 函数会在底层自动创建一个全为零的虚拟张量，其形状与 input_size 一致。

2. 它会将这个虚拟张量传入模型，在模型内部执行一次完整的**前向传播**。

3. 在前向传播的过程中summary 会利用PyTorch的钩子机制监听并记录每一层网络的输入和输出形状，以及该层包含的权重和偏置项的数量。

4. 最后，它将收集到的所有层级信息格式化成表格打印出来，并累加计算出模型的总参数量、可训练参数量以及模型占用的显存/内存大小。

### 四、用途

1. 验证模型架构：直观地检查网络层是否按照预期顺序连接，维度是否正确。

2. 排查维度错误：在深度学习开发中，Tensor维度不匹配是最常见的报错。通过 summary，你可以提前发现哪一层的输出维度不符合预期，从而调整卷积核大小、步长或Padding。

3. 评估计算开销：了解模型有多少参数，估算模型对显存/内存的需求，判断模型是否过大导致无法在当前硬件上运行。

### 五、注意事项

1. *input_size 的格式**：在PyTorch中，数据的默认格式是 (Batch_size, Channels, Height, Width)，即 NCHW。*input_size 参数不需要也不应该包含 Batch_size 维度**summary 函数内部会自动处理（默认添加 batch_size=1 或 2）。因此只需提供 (C, H, W) 即可。

2. 模型必须在正确的设备上：如果 input_size 生成的虚拟张量默认在CPU上，而模型被 .to("cuda") 移动到了GPU上，会导致运行时错误（RuntimeError: Expected all tensors to be on the same device）。因此，代码中 model.to(device) 是非常必要的一步，它确保了模型和输入在同一个设备上。

3. 动态网络结构的局限性torchsummary 通过一次前向传播来推断形状。如果你的模型包含控制流（如 if 语句）或动态维度（如RNN的序列长度依赖于输入）summary 只能反映**当前这一次**前向传播的结构，可能无法展示全貌。

4. 更现代的替代方案：目前社区中 torchsummary 已经较少维护，更推荐使用它的升级版 *torchinfo**（原 torchsummaryX）torchinfo 的用法非常相似from torchinfo import summary），但修复了诸多Bug，支持RNN等复杂结构，并且可以指定真实的 batch_size 进行更准确的显存评估。

如果你在运行这段代码时遇到了 ModuleNotFoundError，请先在终端中运行 pip install torchsummary 安装依赖库。

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Conv2d-1           [-1, 64, 28, 28]             640
              ReLU-2           [-1, 64, 28, 28]               0
         MaxPool2d-3           [-1, 64, 14, 14]               0
            Conv2d-4           [-1, 64, 12, 12]          36,928
              ReLU-5           [-1, 64, 12, 12]               0
         MaxPool2d-6             [-1, 64, 6, 6]               0
            Linear-7                  [-1, 128]         295,040
            Linear-8                   [-1, 10]           1,290
================================================================
Total params: 333,898
Trainable params: 333,898
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 1.02
Params size (MB): 1.27
Estimated Total Size (MB): 2.30
----------------------------------------------------------------

菜单

PyTorch模型的结构摘要

分享

评论

用Pytorch搭建深度学习环境

黑客帝国数字雨

从通用到专属的模型进化之路

英文句子核心结构（主谓宾SVO）

AI如何“思考”？3种推理方式，决定智能的上限

抓取豆瓣电影Top250榜单的数据

🔄 间隔重复：Spaced Repetition 对抗遗忘的科学武器

读取 txt 文件，统计词频, 生成词云

德川家康

RAG Technology