笔趣阁

字:
关灯 护眼
笔趣阁 > 学霸的征途是星辰大海 > 第108章 意外的物理学经验

第108章 意外的物理学经验

    2025年1月,还有一件事对徐辰影响很大。


    这个月,发生了一件科技界的大事。


    各大国内主流新闻app的头版头条都在推送一条消息:


    标题,充满了科技感与冲击力。


    【「中国ai的『gpt-4时刻』?deepseek-r1横空出世,性能全面超越,并宣布开源!」】


    「deepseek-r1?」徐辰的眉毛,微微一挑。


    (请记住看台湾小说就上台湾小说网,?????.???随时看网站,观看最快的章节更新)


    在过去的几个月里,以chatgpt为代表的大语言模型(llm),如同平地惊雷,在全球范围内,掀起了一场前所未有的科技革命。


    【大语言模型……ai……】


    徐辰的心中,泛起了一丝好奇。


    他虽然主攻的是纯粹数学,但对于这些代表着人类科技最前沿的「时髦」玩意儿,也并非一无所知。


    他打开电脑,搜索到了deepseek-r1的开源论文。


    他饶有兴致地,开始阅读起来。


    论文的前半部分,是关于模型训练所使用的数学理论。


    「……我们采用了改进的『注意力机制』(attentionmechanism),其核心,是将输入序列中的每一个词向量,都映射到『查询(query)』丶『键(key)』丶『值(value)』这三个向量空间中。通过计算query与所有key的点积相似度,并进行softmax归一化,来得到每个value的权重……」


    【嗯,有点意思。】徐辰的眼中,闪过一丝了然。


    【这个思路,本质上是线性代数中『投影』与『加权平均』思想的一种精妙应用。它通过点积来衡量向量间的『相关性』,再用softmax函数将这种相关性转化为概率权重,从而让模型能够动态地聚焦于输入序列中最关键的部分。】


    「……在优化器(optimizer)的选择上,我们采用了adam算法,它结合了『动量法』(momentum)和『rmsprop』的优点,能够自适应地,为不同参数,调整学习率……」


    【原来如此。】徐辰点了点头。


    【这可以看作是常微分方程中『梯度下降法』的一种高级变体。它引入了『动量』这个物理概念,模拟一个在损失函数曲面上滚动的小球,利用惯性冲过平坦区域和局部极小值点,从而加速收敛。而自适应学习率,则相当于为这个小球,在不同陡峭程度的路面上,配备了智能的刹车和油门系统。】


    论文中那些在ai工程师看来,极其高深复杂的数学原理,在徐辰这个lv.2级别的「数学家」眼中,却如同庖丁解牛,每一个结构,每一处关节,都清晰可见。


    他只花了不到半个小时,就将论文中所有的数学部分,全部吃透,甚至还能举一反三地,思考出几种可能的改进方向。


    【整个大语言模型,从数学上看,可以被视为一个极其高维的丶非线性的函数逼近器。它的训练过程,就是在数十亿甚至数千亿个参数构成的空间中,通过梯度下降,寻找一个能最小化『损失函数』的最优解。而『注意力机制』,则为这个庞大的函数,提供了高效的『剪枝』策略,使其能够专注于处理长距离的依赖关系。】


    然而,当他看到论文的后半部分,关于「神经网络架构」和「模型训练」的内容时,他的眉头,却渐渐地,锁了起来。


    「transformer架构」丶「多头注意力」丶「残差连接」丶「层归一化」……


    这些属于计算机科学和人工智慧领域的专业术语,对他而言,就如同一个个陌生的路标,指向一片他从未踏足过的未知领域。


    如果不了解神经网络为什麽能拟合任何函数(万能逼近定理),对后续的深层神经网络乃至于transformer架构就更加不知道具体的工作机制了。


    【对于ai,确实还存在着巨大的『盲区』。】


    他没有气馁,反而燃起了一股强烈的求知欲。


    他打开电脑,开始在网上,疯狂地,搜索着关于「大语言模型」的基础知识。


    从最基础的「感知机」模型,到「深度神经网络」,再到「循环神经网络(rnn)」和「长短期记忆网络(lstm)」,最后,才是当今大模型的核心——「transformer」。


    就在他将一篇关于「transformer」核心架构的经典论文——《attentionisallyouneed》,看到一半时。


    他脑海中,那冰冷的系统提示音,毫无徵兆地,响了起来!


    【叮!检测到宿主正在学习『人工神经网络』相关知识,认知边界拓展……】


    【信息学经验值+2!】


    【物理学经验值+1!】


    【生化学经验值+1!】


    「嗯?!」


    徐辰的动作,猛地一顿!


    他有些难以置信地,调出了自己的系统面板。


    信息学经验值+2,很好理解,因为ai就是通过计算机来实现的,计算机相关的知识自然属于信息学的范畴。


    但是,在「物理学」和「生化学」那两条几乎还是空白的经验条后面,都出现了一个小小的「+1」!


    【什麽情况?!】


    【我明明是在学计算机和ai,怎麽会加了物理和生化的经验?!】


    【系统,你是不是出bug了?】


    他先是一愣,随即,陷入了沉思。


    【生化学经验+1,这个……倒还勉强能够理解。】


    【毕竟,『神经网络』这个词,本身就是对人脑神经元结构的仿生学模拟。我学习它的工作原理,就等于,是在从一个抽象的丶信息学的角度,去间接地,理解生物大脑的构造。这算是了解生物构造的一部分,倒也是说得通。】


    【但……物理学经验+1,又是怎麽回事?】


    【ai和物理,感觉八竿子都打不着啊!】


    他百思不得其解。


    他继续向下阅读那篇论文,试图从更深层次的理论中,寻找答案。


    当他看到「hopfield网络」与「ising模型」之间的深刻联系,看到「深度学习」的训练过程,如何可以被类比为「模拟退火」这个源自于统计物理学的算法时,他才恍然大悟。


    【原来如此!】


    【一个由数十亿丶甚至数千亿个参数构成的巨大网络,其整体行为,已经无法再用单个神经元的简单逻辑来描述。它呈现出的,是一种『集体效应』,是一种『涌现』现象!】


    【而研究这种由海量个体构成的复杂系统的宏观规律,恰恰是『统计物理学』最擅长的事情!】


    他又搜索了一些ai与物理学的相关信息,搜索结果的第一条,就是一条刚刚过去几个月丶还带着热度的重磅新闻。


    【「2024年诺贝尔物理学奖揭晓!授予约翰·霍普菲尔德与杰弗里·辛顿,以表彰他们为机器学习,特别是人工神经网络所做出的奠基性发现!」】


    「诺贝尔物理学奖……颁给了ai方向?」


    颁奖是在10月,刚好是徐辰进入拔尖计划没多久的时候。那会他每天忙的都没时间吃饭,自然没时间关注外界这些新闻。


    当时,这个结果,在全球范围内,都引起了巨大的争议。


    许多人质疑:「ai是计算机科学,凭什麽拿物理学奖?」


    但徐辰此刻,却瞬间,理解了诺贝尔奖委员会那超越时代的深刻用意!


    【我明白了……】


    他看着屏幕上,关于「hopfield网络」的介绍,心中思索:


    【霍普菲尔德,他天才般地,将神经网络中的神经元状态(激活或抑制),与统计物理学中的『自旋玻璃』模型(spinss)中的磁矩朝向(向上或向下),进行了类比!】


    【他定义了一个『能量函数』,使得网络的每一个可能状态,都对应一个能量值。而网络的『学习』和『记忆』过程,就等同于,这个物理系统,自发地,向着能量最低的丶最稳定的状态演化的过程!】


    【他用物理学的语言,为『记忆』这个看似属于生物学和心理学的概念,赋予了一个清晰丶可计算的数学模型!这是一种石破天惊的丶跨学科的伟大洞见!】


    【而辛顿,则在此基础上,发展出了『玻尔兹曼机』,引入了『温度』和『概率』的概念,让神经网络,能够跳出『局部最优解』的陷阱,去寻找全局的丶更优的解!这,不就是『模拟退火』算法的核心思想吗?!】


    【他们两人,不是在『发明』ai,他们是在『发现』ai背后,那与宇宙运行规律如出一辙的丶更深层次的『物理法则』!】


    【诺贝尔奖委员会,不是在奖励一个『计算机算法』,他们是在奖励一种『世界观』!一种将信息丶智能丶与物质丶能量,统一起来的丶全新的世界观!】


    想通了这一点,徐辰的心中,掀起了滔天巨浪!


    他第一次,如此清晰地,感受到了不同学科之间,那隐藏在最底层丶相通的深刻联系!


    【看来,系统是对的。】


    【数学丶物理丶化学丶生物丶信息……这些,从来都不是孤立的学科。它们只是人类,为了方便理解,而从不同角度,对同一个『宇宙真理』,进行的『管中窥豹』而已。】


    这个发现,让他对整个科学大厦的认知,再次,跃迁到了一个新的维度!


    他也对ai这个领域,产生了更加浓厚的兴趣。


    ……


    【如果,我能有一个足够强大的ai助手,来帮我处理那些繁琐的丶重复性的工作,比如,查阅文献丶整理资料丶回复常规邮件,甚至……帮我进行一些大规模的数值计算和猜想验证……】


    【那我的研究效率,岂不是能得到指数级的提升?】


    这个念头一起,便如同燎原的野火,再也无法熄灭。


    但他同样清楚,目前市面上所有的大语言模型,包括这个最新的deepseek-r1,都存在一个致命的丶源于其底层原理的缺陷——「幻觉」。


    它们的本质,不是「理解」,而是「预测」。


    它们只是在根据海量的语料库,去计算出下一个词语出现的「最大概率」。


    这种机制,决定了它们在处理事实性丶逻辑性要求极高的任务时,偶尔,会一本正经地,胡说八道。


    对于日常生活来说,这种小错误,无伤大雅。


    但对于要求100%精确的数学研究来说,任何一个微小的错误,都可能是致命的。


    【看来,想要一个真正可靠的丶能用于严肃科研的ai助手,还得靠自己啊。】


    他心中暗道。


    【不过,这个领域,太复杂了。它是一个融合了数学丶计算机丶物理学丶神经科学的『交叉学科』。以我现在的知识储备,还远远不够。】


    【等我的数学等级,提升到lv.3,或许,可以花点时间,系统地,研究一下这个方向。】


    他为自己,又立下了一个长期的「小目标」。


    然后,他关掉了手机,站起身,伸了个懒腰。


    ……
『加入书签,方便阅读』
内容有问题?点击>>>邮件反馈
热门推荐
大奉打更人 阴阳风水秘录 学长,我错了 斗战魔神 含桃 逆天邪神