模型测试/验证函数

# Function to test the model
def test(dataloader, model):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()  # Set the model to evaluation mode
    test_loss, correct = 0, 0
    with torch.no_grad():
        for X, y in dataloader:
            pred = model(X)
            test_loss += loss_function(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
    test_loss /= num_batches
    correct /= size
    print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

# Evaluate the model
test(test_loader, model)

这段代码是深度学习（特别是使用PyTorch框架）中非常经典且标准的**模型测试/验证函数**。它的主要作用是在训练完成后或训练过程中，使用独立的测试集来评估模型的性能，包括计算平均损失和准确率。

下面我将从**实现原理**、**用途**和**注意事项**三个方面为您详细解释：

### 一、实现原理（代码逐行解析）

1. 函数定义与参数：

```python

def test(dataloader, model):

```

接收两个参数dataloader（数据加载器，提供批量的测试数据和标签）和 model（训练好的神经网络模型）。

2. 初始化统计变量：

```python

size = len(dataloader.dataset) # 测试集的总样本数

num_batches = len(dataloader) # 批次的总数量

test_loss, correct = 0, 0 # 累计总损失和累计正确预测数

```

3. 设置模型为评估模式：

```python

model.eval()

```

这是非常关键的一步。它通知模型进入评估状态，这会关闭在训练时使用的Dropout层（停止随机丢弃神经元），并让BatchNorm层使用全局的均值和方差，而不是当前batch的统计量，从而保证测试结果的确定性和准确性。

4. 关闭梯度计算：

```python

with torch.no_grad():

```

在测试阶段，我们不需要更新权重，因此不需要计算梯度。使用 torch.no_grad() 可以大幅减少内存占用并加快计算速度。

5. 遍历数据进行前向传播：

```python

for X, y in dataloader:

pred = model(X) # 前向传播，得到模型预测值

test_loss += loss_function(pred, y).item() # 计算当前batch的损失并累加

correct += (pred.argmax(1) == y).type(torch.float).sum().item() # 统计预测正确的样本数

```

* loss_function(pred, y)：计算预测值与真实标签的损失（注意：代码中未显式传loss_function，它应该是一个在函数外部定义的全局变量）。

* pred.argmax(1)：沿着维度1（类别维度）找出最大值的索引，即模型预测的类别。

* == y：与真实标签比较，生成一个布尔型张量（True表示预测正确）。

* .type(torch.float).sum().item()：将布尔值转为浮点数（True=1.0, False=0.0），求和得到当前batch正确预测的数量，并转换为Python标量。

6. 计算平均值并输出结果：

```python

test_loss /= num_batches # 平均每个batch的损失

correct /= size # 正确预测数 / 总样本数 = 准确率

print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

```

---

### 二、用途

1. 模型性能评估：在模型训练完成后，衡量模型在未见过的数据（测试集）上的泛化能力。

2. 监控过拟合/欠拟合：可以在每个Epoch训练结束后调用此函数，对比训练集和测试集的准确率/损失。如果训练集准确率高而测试集准确率低，说明发生了过拟合。

3. 模型选择：通常我们会保存测试集上表现最好（如准确率最高或损失最低）的模型权重用于实际部署。

---

### 三、注意事项与改进建议

1. *loss_function 未作为参数传入**：

* 问题：代码中使用了 loss_function，但它既不是函数参数，也未在函数内部定义。这依赖于它是全局变量，这在工程实践中是不规范的，容易引发 NameError。

* 改进：建议将其作为参数传入，即 def test(dataloader, model, loss_fn):。

2. 设备一致性（CPU/GPU）：

* 问题：代码中直接 pred = model(X)，如果模型在GPU（如CUDA）上，而数据 X 默认在CPU上，会报错。

* 改进：需要将数据和模型移动到同一设备上。通常需要获取设备对象，并在循环内执行 X, y = X.to(device), y.to(device)。

3. *model.eval() 的作用域**：

* 问题：调用 model.eval() 后，模型的状态被改变了。如果在测试完后还要继续训练，必须记得调用 model.train() 将模型恢复到训练模式，否则后续的训练会出错。

* 改进：在实际使用中，可以在函数内部使用上下文管理器，或者在训练循环中显式地切换模式。

4. 平均损失的计算方式：

* 问题：代码中 test_loss /= num_batches 计算的是**批次平均损失**。由于最后一个批次的数据量可能少于其他批次（当数据集大小不能被batch_size整除时），这种计算方式会略微偏离真实的样本平均损失。

* 改进：更严谨的做法是累加所有样本的未平均损失，最后除以总样本数 size。这通常需要在定义损失函数时设置 reduction='sum'，或者在这里乘以当前batch的大小。

### 改进后的规范代码示例

```python

def test(dataloader, model, loss_fn, device="cpu"):

size = len(dataloader.dataset)

num_batches = len(dataloader)

model.eval() # 设置为评估模式

test_loss, correct = 0, 0

with torch.no_grad():

for X, y in dataloader:

# 将数据移动到指定设备（CPU或GPU）

X, y = X.to(device), y.to(device)

pred = model(X)

test_loss += loss_fn(pred, y).item()

correct += (pred.argmax(1) == y).type(torch.float).sum().item()

test_loss /= num_batches

correct /= size

print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

# 调用示例（假设模型和数据已在device上）：

# test(test_loader, model, loss_function, device)

```

菜单

模型测试/验证函数

分享

评论

用Pytorch搭建深度学习环境

黑客帝国数字雨

从通用到专属的模型进化之路

英文句子核心结构（主谓宾SVO）

AI如何“思考”？3种推理方式，决定智能的上限

抓取豆瓣电影Top250榜单的数据

🔄 间隔重复：Spaced Repetition 对抗遗忘的科学武器

读取 txt 文件，统计词频, 生成词云

德川家康

RAG Technology