车间里的时钟指向上午九点,第三轮模型训练的最终结果新鲜出炉:训练集识别准确率 96%,验证集识别准确率 95%。看着屏幕上近乎完美的训练数据,团队成员们脸上都洋溢着期待的笑容,仿佛已经看到了 “糕小默 2.0” 顺利量产的场景。
“按照这个数据,实际测试的准确率应该能达到 90% 以上吧?” 李萌萌一边整理新制作的测试样本,一边兴奋地说道。为了确保测试结果的客观性,她和苏晚花了整整一天时间,制作了 50 组全新的样本,涵盖所有发酵等级,其中特意增加了 20 组 “略不足” 与 “合格” 的临界样本 —— 这正是之前模型最容易误判的类型。
陈曦将 50 组测试样本的数据导入模型,点击 “预测” 按钮。所有人都屏住了呼吸,紧紧盯着屏幕上跳动的进度条。几秒钟后,测试结果弹出,喜悦的笑容瞬间从大家脸上褪去:识别准确率 85%,误差率 15%。
“怎么才 85%?” 小王忍不住皱起眉头,语气中带着失望,“训练集和验证集的准确率都达到 95% 了,为什么实际测试还差这么多?”
林默接过陈曦打印的测试报告,仔细查看误判样本的分布情况:“误差率 15%,虽然比最初的 20% 下降了 5 个百分点,但距离我们预期的 5% 目标还有很大差距。而且你们看,误判主要集中在‘略不足’与‘合格’这两个等级,误判率高达 25%,其他等级的误判率只有 8%。”
苏晚拿起放大镜,逐一观察那些误判样本的实物:“这组‘略不足’的样本被判定为合格,我们看看它的特征。气孔直径 1.7,湿度 67%,而合格样本的标准是气孔直径 1.5-2、湿度 62%-68%。两者的特征几乎重叠,尤其是气孔差异还不到 0.5,肉眼都很难区分,更别说模型了。”
陈曦打开误判样本的高清图片,用专业软件测量特征参数:“确实如此。所有误判的‘略不足’与‘合格’样本,气孔直径差异都小于 0.5,表面颜色、光滑度等视觉特征也高度相似,模型很难捕捉到这种细微差异。之前我们虽然增加了卷积层数量,但 3 层卷积层的提取能力还是有限,无法精准识别这种临界特征。”
团队刚刚燃起的希望又一次被浇灭。如果核心的 “略不足” 与 “合格” 误判问题无法解决,“糕小默 2.0” 的量产计划就只能继续推迟。车间里陷入了沉默,每个人的脸上都写满了焦虑。
“大家别着急,误差率从 20% 降到 15%,已经是很大的进步了。” 林默率先打破沉默,他拿起笔在白板上画了一张误差率下降折线图,将每一次优化后的误差率标注出来,“你们看,从最初的 35% 到 20%,再到现在的 15%,我们一直在进步。现在的问题很明确,就是模型对细微特征的捕捉能力不足,以及对临界样本的判断缺乏更可靠的辅助依据。只要针对性解决这两个问题,误差率一定能继续下降。”
苏晚看着手中的湿度数据记录,突然眼前一亮:“之前我们发现湿度数据与视觉识别结果的匹配度高达 85%,或许可以在模型中加入湿度数据的权重。比如,当模型判定样本为‘合格’时,如果其湿度数据与合格标准的匹配度低于 80%,就自动将其标记为‘待确认’,不直接判定为合格。这样就能利用湿度数据的物理特性,辅助视觉识别,降低误判率。”
“这个想法可行!” 陈曦立刻表示赞同,“‘略不足’与‘合格’样本的视觉特征相似,但湿度数据还是有细微差异。合格样本的湿度通常在 63%-66% 之间,而‘略不足’样本的湿度多在 67%-69% 之间。如果给湿度数据设置权重,当湿度匹配度≥80% 时才判定为合格,就能有效区分这两种样本。”
小王也补充道:“另外,我们可以增加卷积层的数量。3 层卷积层只能提取到表面的宏观特征,增加到 5 层后,模型能深入提取到气孔分布密度、边缘光滑度等细微特征,对 0.5 以下的气孔差异也能捕捉到。不过卷积层数量不能太多,否则会导致模型训练时间过长,还可能出现新的过拟合问题。”
林默综合大家的意见,做出决策:“就按这个思路优化。小王负责调整模型参数,将卷积层从 3 层增至 5 层,同时优化激活函数和学习率;苏晚负责制定湿度数据的权重标准,明确不同发酵等级的湿度匹配阈值;陈曦负责模型的重新训练和兼容性调试;我负责跟踪测试效果,确保误差率能降至 10% 以下。”
方案确定后,团队立刻投入紧张的优化工作。小王坐在电脑前,专注地修改模型结构参数。他没有直接将卷积层增至 5 层,而是先尝试增加到 4 层,训练后测试误差率降至 13%;再增加到 5 层,误差率进一步下降到 11%;当尝试增加到 6 层时,误差率反而回升到 12%,还出现了轻微的过拟合迹象。
“看来 5 层卷积层是最优配置。” 小王松了口气,向团队汇报测试结果,“5 层卷积层既能提升对细微特征的捕捉能力,又不会导致过拟合,而且训练时间只比之前增加了 2 小时,在可接受范围内。”
苏晚则根据之前收集的 500 组样本数据,制定了详细的湿度权重标准:“合格样本的湿度标准是 62%-68%,我们设定湿度匹配度≥80% 时,才认可模型的视觉识别结果;如果湿度匹配度在 60%-80% 之间,就将样本标记为‘待确认’,需要结合其他特征进一步判断;如果湿度匹配度<60%,则直接否定视觉识别结果,按湿度对应的等级判定。”
她举了个例子:“比如一组样本被模型视觉识别为‘合格’,但它的湿度是 69%,与合格样本的湿度标准匹配度只有 75%,低于 80%,我们就不判定它为合格,而是标记为‘待确认’,再结合气孔直径等特征综合判断,这样就能有效降低误判率。”
陈曦将调整后的模型结构和湿度权重标准融入算法,启动了第四轮模型训练。这一次,模型不仅要学习视觉特征,还要结合湿度数据的权重进行判断,训练难度更大,但针对性也更强。
团队成员们没有像之前那样守在电脑旁,而是各自忙碌着后续的准备工作。苏晚整理了所有误判样本的特征数据,制作成 “误判样本分析手册”,方便团队随时查阅;李萌萌则开始准备下一轮测试的样本,特意增加了 “略不足” 与 “合格” 临界样本的数量,确保测试结果能真实反映模型的优化效果;林默则联系了几位糕点老师傅,邀请他们在后续的测试中提供人工判断参考,对比模型识别与人工判断的差异。