ADVANCE Day45-平芜编程栈

@浙大疏锦行

📘 Day 45 实战作业：给模型装上仪表盘 —— TensorBoard 实战

1. 作业综述

核心目标：

环境搭建：安装并启动 TensorBoard。
指标监控 (Scalar)：不再盯着控制台刷屏，而是画出漂亮的Loss和Accuracy曲线，对比训练集和测试集的差异。
模型透视 (Graph)：可视化神经网络的结构图 (Computational Graph)。
视觉验证 (Images)：在 TensorBoard 里直接查看模型预测错误的图片。

涉及知识点：

SummaryWriter: TensorBoard 的核心记录员。
add_scalar: 记录数字指标。
add_image: 记录图像数据。
add_graph: 记录模型结构。
Magic Command: 在 Jupyter 里直接嵌入 TensorBoard。

场景类比：

Print 日志: 像是医生的手写病历，枯燥且难以分析趋势。
TensorBoard: 像是ICU里的心电监护仪，实时跳动，一目了然。

步骤 1：初始化记录员 (Writer Setup)

核心概念：
TensorBoard 的工作原理是：

Python 代码往一个文件夹（比如runs/experiment_1）里写日志文件。
TensorBoard 程序读取这个文件夹，并在网页上渲染出图表。

任务：

定义 CIFAR-10 的数据管道（复用 Day 44 的极速版配置）。
初始化SummaryWriter。

importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,transforms,models,utilsfromtorch.utils.dataimportDataLoaderfromtorch.utils.tensorboardimportSummaryWriter# 核心组件importnumpyasnpimportmatplotlib.pyplotasplt# 1. 准备数据 (复用 Day 44 极速版配置)IMG_SIZE=112BATCH_SIZE=64transform=transforms.Compose([transforms.Resize(IMG_SIZE),transforms.ToTensor(),transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))])train_dataset=datasets.CIFAR10(root='./data',train=True,download=True,transform=transform)test_dataset=datasets.CIFAR10(root='./data',train=False,download=True,transform=transform)train_loader=DataLoader(train_dataset,batch_size=BATCH_SIZE,shuffle=True,num_workers=2)test_loader=DataLoader(test_dataset,batch_size=BATCH_SIZE,shuffle=False,num_workers=2)device=torch.device("cuda"iftorch.cuda.is_available()else"cpu")# 2. 初始化 TensorBoard 记录器# log_dir 是日志存放的路径，每次实验建议改个名字，比如 'runs/exp1', 'runs/exp2'writer=SummaryWriter('runs/cifar10_resnet_experiment')print("✅ TensorBoard Writer 已就绪！日志将写入 runs/cifar10_resnet_experiment")

✅ TensorBoard Writer 已就绪！日志将写入 runs/cifar10_resnet_experiment

步骤 2：可视化模型结构与图片

任务：
在开始训练前，我们先往 TensorBoard 里存点东西看看效果。

看图: 把一个 Batch 的图片拼成网格，存进去。
看模型: 把 ResNet18 的结构图存进去。

# 1. 获取一个 Batch 的数据images,labels=next(iter(train_loader))# 2. 写入图片网格 (add_image)# make_grid 会把 64 张图拼成一张大图img_grid=utils.make_grid(images)# 反归一化以便显示正常颜色 (可选)img_grid_show=img_grid*0.5+0.5writer.add_image('CIFAR10_Input_Images',img_grid_show)# 3. 写入模型结构 (add_graph)# 需要传入模型实例和一个样例输入 (input_to_model)model=models.resnet18(pretrained=False)# 演示用，不加载权重也没事model.fc=nn.Linear(512,10)model=model.to(device)# 注意：add_graph 需要输入也在对应的 device 上dummy_input=images.to(device)writer.add_graph(model,dummy_input)print("✅ 图片和模型结构已写入！请稍后在 TensorBoard 查看。")

e:\Anaconda\envs\test\lib\site-packages\torchvision\models\_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead. warnings.warn( e:\Anaconda\envs\test\lib\site-packages\torchvision\models\_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`. warnings.warn(msg) ✅ 图片和模型结构已写入！请稍后在 TensorBoard 查看。

步骤 3：在训练循环中埋点

核心逻辑：
我们需要在train和test的循环里插入writer.add_scalar。

tag (标签): 比如'Loss/train','Accuracy/test'。TensorBoard 会根据标签自动分组。
scalar_value (数值): y 轴的值。
global_step (步数): x 轴的值（通常是 epoch 或 iteration）。

任务：
修改训练循环，实时记录 Loss 和 Accuracy。

# 重新定义一个简单的训练函数，集成 TensorBoarddeftrain_with_tensorboard(model,epochs=5):criterion=nn.CrossEntropyLoss()optimizer=optim.Adam(model.parameters(),lr=0.001)# 记录全局步数 (iteration)step=0forepochinrange(epochs):print(f"Epoch{epoch+1}/{epochs}starting...")# --- 训练阶段 ---model.train()running_loss=0.0fori,(inputs,targets)inenumerate(train_loader):inputs,targets=inputs.to(device),targets.to(device)optimizer.zero_grad()outputs=model(inputs)loss=criterion(outputs,targets)loss.backward()optimizer.step()running_loss+=loss.item()# [埋点 1] 每 100 个 Batch 记录一次训练 Loss# x轴使用 step (平滑连续)，而不是 epochifi%100==99:writer.add_scalar('Loss/train',running_loss/100,global_step=step)running_loss=0.0step+=1# --- 测试阶段 (每个 Epoch 结束后测一次) ---model.eval()correct=0total=0test_loss=0.0withtorch.no_grad():forinputs,targetsintest_loader:inputs,targets=inputs.to(device),targets.to(device)outputs=model(inputs)loss=criterion(outputs,targets)test_loss+=loss.item()_,predicted=outputs.max(1)total+=targets.size(0)correct+=predicted.eq(targets).sum().item()acc=100.*correct/total avg_test_loss=test_loss/len(test_loader)# [埋点 2] 记录测试集的 Accuracy 和 Loss# x轴使用 epochwriter.add_scalar('Accuracy/test',acc,global_step=epoch)writer.add_scalar('Loss/test',avg_test_loss,global_step=epoch)print(f"Epoch{epoch+1}finished. Test Acc:{acc:.2f}%")# 开始训练 (演示跑 3 轮即可)train_with_tensorboard(model,epochs=3)# 记得关闭 writer，否则部分数据可能还没写进硬盘writer.close()

Epoch 1/3 starting... Epoch 1 finished. Test Acc: 62.03% Epoch 2/3 starting... Epoch 2 finished. Test Acc: 69.76% Epoch 3/3 starting... Epoch 3 finished. Test Acc: 75.44%

步骤 4：启动仪表盘

两种方式：

命令行 (推荐)：打开 Anaconda Prompt 或终端，进入当前代码目录，输入：
```
tensorboard --logdir=runs
```
然后浏览器访问http://localhost:6006。
Jupyter 魔术命令：直接在 Notebook 里显示（如下所示）。

# 加载 TensorBoard 扩展%load_ext tensorboard# 启动 TensorBoard，指定日志目录# 端口设为 6006 (默认)%tensorboard--logdir=runs--port=6006

🎓 Day 45 总结：可视化分析

今天我们给 AI 模型装上了“眼睛”。通过 TensorBoard，你应该能看到：

SCALARS: 随着训练进行，Loss 曲线在震荡中下降，Accuracy 曲线在上升。如果 Loss 曲线长时间不下降，或者 Test Loss 开始上升，你就知道该调整学习率或早停了。
GRAPHS: 帅气的 ResNet18 流程图，展示了数据是如何一层层流动的。
IMAGES: 我们喂给模型的图片长什么样。

工业界经验: