第634章给学术圈一点小小的北邮震撼_带着手机重生，目标科技教父

    视角切回京城邮电大学的教研室。

    锺柏正在操作电脑，连接学校的宽带网络。

    一百二十万张图片的压缩包，体积极其庞大。

    锺柏挂上下载连结，对教研室这个2mb/s的下载速度很满意，但是又看了一眼整个数据集的体积：300g，又叹了口气。

    「这得下到猴年马月去。」

    楚一航掏出手机看了眼时间。

    「挂着下吧，三个月的比赛呢，也不差这一会。」

    下载进度条缓慢爬行。

    一转眼，两天时间过去了，几个人走到了机房隔壁的伺服器存放间。

    里面摆着两个黑色的标准机柜。

    机柜里整齐排列着伺服器节点，运转的散热风扇发出巨大的噪音。

    这些节点里插满了amd的顶级计算卡。

    这是郭长徵用三十五万的研究经费，加上盛夏科技提供的特殊折扣采购来的。

    郭长征看着这些闪烁着绿灯的机器。

    「三十五万砸下去，系里好几个老教授都在看我们的笑话。」

    楚一航检查着节点上的指示灯。

    「郭老师，您这就多虑了。」

    「有盛夏科技的九章计算平台做底层，上面还套着我们新开发的tensorflow框架。」

    「这套硬体的算力利用率，绝对超出那些老教授的认知。」

    叶言在旁边插话。

    「其实在比赛数据集发布之前，我们用通用图片数据已经训练了一版基础模型。」

    楚一航点头。

    「没错，那个模型虽然没有针对imag的特定类别做过训练，输出的结果类别也比比赛里要求的要多很多，但底层的特徵提取网络已经成型了。」

    而此时，imag的数据集终于下载完成并解压。

    锺柏把五万张带有标签的验证集图片导入伺服器存储。

    楚一航坐回电脑前，打开终端窗口。

    他通过命令行连接到隔壁机房的gpu集群。

    锺柏点开了解压后的数据集目录，仔细翻看了一遍官方提供的数据说明文档。

    「哎？你们看这数据分布。」锺柏指着屏幕。

    「这比赛提供的一百二十万张训练图像，一共被划分为了一千个类别。」

    「但这玩意儿看着眼熟啊，这不就是咱们前段时间折腾的那个五百万张图片丶五千个类别的超大数据集的子集吗？」

    锺柏手指在键盘上无意识地敲了两下，忽然嘿嘿一笑。

    「手痒了。」

    「既然是子集，要不咱们直接用前两天刚跑完的那个五千分类的通用预训练模型，来预测一下这数据集？」

    「看看现成的模型，在这五万张验证集上效果咋样。」

    楚一航一听，直接竖起了大拇指。

    「你小子真是个机灵鬼，其实我刚才也正有此意。」

    「现成的大模型不用白不用，说干就干！」

    郭长征也点头同意了这个提议。

    「跑一次看看，正好摸摸这个比赛数据集的特徵分布底细。」

    这里需要给非专业人士解释一下。

    为什么用训练了五千个类别的通用模型，可以直接去预测只有一千个类别的子数据集？

    因为在深度学习中，用海量数据喂出来的模型「见多识广」。

    它在底层网络中已经学会了提取通用的图像特徵，比如轮廓丶纹理丶色彩组合。

    这种通用的特徵提取能力，完全可以直接套用到子集数据的分类任务上。

    但直接这么做，预测精度必然会存在误差，成绩会差一些。

    原因很简单，模型最终输出的是五千个选项的概率。

    在面对这五万张只有一千种标准答案的验证图片时，通用模型依然会按照五千个类别的范围去预测。

    一旦它把图片分类成了比赛规定的一千个类别之外的选项，按照赛制就会被判定为错误。

    它还需要时间去针对这一千个特定的类别重新训练，才能做到精准得分。

    楚一航没管那么多，直接在终端里输入调用tensorflow框架的命令。

    回车键敲下。

    隔壁机房的散热风扇转速瞬间飙升，噪音穿透了玻璃门。

    屏幕上开始滚动运行日志。

    锺柏盯着显存占用率的监控面板。

    「集群的显存占用直接拉满了。」

    「九章平台对amd显卡的调度策略真够暴力的。」

    叶言看着进度条。

    「处理五万张图片，传统算法少说得跑个两三天。」

    「我看这进度，估计一顿饭的功夫就能出结果。」

    楚一航往后靠在椅背上。

    「这就叫算力碾压。」

    十分钟过去。

    终端屏幕上的滚动日志停了下来。

    最后一行输出了一串统计数据。

    锺柏揉了揉眼睛，指着屏幕上的数字。

    「我是不是看花眼了？」

    叶言凑过去，一个字符一个字符地念出来。

    「top-1准确率：40.2%。」

    「top-5准确率：80.5%。」

    楚一航保持着靠在椅背上的姿势，摸下巴的手停住了。

    郭长征立刻推开锺柏，自己握住滑鼠，点开测试代码的日志文件。

    他快速检查着数据加载流程和对比逻辑。

    「没有发生数据泄露。」

    「这个模型的训练集里，不包含这些验证集的数据。」

    郭长徵得出结论。

    「代码没问题，这确实是我们那个通用模型在全新验证集上跑出的真实成绩。」

    锺柏倒吸了一口凉气。

    「这还只是我们用通用数据训练的基础模型啊。」

    「还没专门针对imag的一千个分类做重新训练呢。」

    叶言迅速在脑海里计算着行业平均水平。

    「目前用传统的sift特徵提取加上支持向量机算法。」

    「在这类复杂图片识别任务上，最高正确率也就只能做到20%到25%。」

    楚一航站起身来，看着屏幕。

    「20%对40%。」

    「这不是同台竞技，这是直接把桌子掀了。」

    锺柏激动得满脸通红，直接点开浏览器上imag的官网。

    「现在排行榜上还是空的，一个队伍都没上传。」

    「楚哥，咱们赶紧把这个测试集的预测结果跑出来，直接上传一波。」

    「先拿个40%的成绩挂在榜首。」

    「给全世界的学术圈一点小小的北邮震撼。」

    「不行，不能传。」郭老师却是摇了摇头。

    锺柏满脸写着问号，手悬在滑鼠上。

    「为什么啊郭老师？这么高的分数，传上去绝对能霸榜个把月。」

    郭长征指着列印下来的比赛规则说道，「规则写得清清楚楚，满打满算就五次上传机会。」

笔趣阁

第634章 给学术圈一点小小的北邮震撼

第634章给学术圈一点小小的北邮震撼