第203章 定价(1 / 2)

林野拿起国家给自己准备的加密电话,几乎没有犹豫,直接拨通了那个烂熟于心的号码。圈内所有人都知道,这位是国内大模型领域最疯、最敢赌、也最懂算力痛点的人,也是当时 50 种室温超导晶格量产阶段时给林野写过控制算法,两人差不多已经算得上生死之交的梁锋文。

电话几乎是秒接,“喂?林野?” 那头的声音带着一丝压不住的躁意,却又瞬间绷紧,“…… 你们终于肯放号了?”

林野笑了笑:“老梁,我们星金科技,准备开放第一批立方体存算一体单元内测,四天后开发布会。我这边第一个电话,就打给你了。对了,这次内测我们会同步测试五种存算架构,你带来的模型刚好能帮我们完成全场景验证,还能顺便适配驱动。”

这句话刚落下,电话那头猛地传来一声像是憋了整整一年的低吼,“我靠 —— 林野!你可算打给我了!”

梁锋文的声音直接拔高,又气又笑,带着一股劫后余生的暴躁,“你知道我等你们这玩意儿等了多久吗?整整一年!从我知道你们超导存储上市,我就天天盯着、夜夜盼着,就等你这套系统出来!你的 CPU 也很强,可这东西跑大模型不合适。

你知道我们 DeepSeek 现在多痛苦吗?算力卡、带宽卡、存储卡、电费卡,我机房里那堆 GPU 跟电老虎一样吞钱,模型越大越跑不动,我天天晚上睡不着觉!你再晚叫我几天,我都准备亲自杀到你公司楼下堵门了!还有,你们这套架构的驱动适配好了吗?我们模型底层指令是基于传统 GPU 编写的,复制粘贴过去能自动翻译吗?”

林野被他一顿连环炮轰得哭笑不得:“我这不第一个就找你了吗。驱动已经提前适配好了,专门做了底层指令自动翻译模块,你们的模型代码不用改一行,复制粘贴到我们的系统里,会自动翻译成超导存算架构的底层指令,不用额外调试,而且五种架构的驱动都已预装完毕,你测试时可以自由切换。”

“少来!” 梁锋文骂归骂,语气却急得火烧眉毛,“不在原来的老地方了吧?新地址发我!我现在、立刻、马上过去!五种架构的设备都准备好了没有?环境搭好了没有?驱动真的能无缝适配?模型我这边已经打包好了,一秒都不耽误!我告诉你林野,今天谁来都不好使,我必须第一个测,五种架构我都要跑一遍,看看哪套最适配大模型训练!”

林野看了一眼时间:“现在过来完全可以,我们这边五种架构的机器全预调试好了,驱动也已适配完毕,指令自动翻译模块也做过测试,不会出问题。而且我们还准备了详细的架构参数表,等你来了给你,方便你对比测试结果。”

“等着我!”

电话咔嗒一声挂了,不到四十分钟,实验室的大门被人匆匆推开。

梁锋文一身休闲冲锋衣,头发微乱,手里拎着一台轻薄本,那里面用的都是新一代超导线路优化过的东西,硬盘也是400TB的新款硬盘。他眼神亮得吓人,一进门目光就死死钉在了实验室中央那五台规格一致、静静伫立的立方体存算单元上,呼吸都重了几分 —— 这五台机器,肯定就是林野说的五种不同存算架构。

再然后他看到的不是林野,而是站在控制台旁的吴军。他的脚步下意识一顿,原本风风火火的气势,莫名收敛了大半,多了几分客气与拘谨。

现在在整个计算行业,吴军这两个字,分量太重。

“吴老师。” 梁锋文主动点头致意,态度恭敬,目光却忍不住瞟向那五台立方体,“听说你们准备了五种存算架构同步测试?我今天刚好把我们最新的大模型带过来,正好能帮你们测测,也看看哪套最适合我们大模型训练,还有驱动适配和指令翻译的效果,我也得亲自验验。”

吴军抬眼,淡淡颔首,神色平和,没有什么架子,“梁总,久仰。五种架构确实都已准备就绪,驱动和指令自动翻译模块也已预装,你可以放心测试。我们也正想借助你们的大模型,验证五种架构在商用场景下的表现,毕竟科研场景()和商用场景(大模型)的需求,还是有差异的。”

没有太多客套,吴军看了一眼时间,又望向门口,说道:“后面还有几家客户陆续到,影视、超算、生物医药,我去前台接待一下,顺便把保密与测试协议走掉。”

他拍了拍林野的肩膀,“你带梁总,先去看机器、熟悉五种架构的参数,边聊边测。不用等别人,他今天直接开始,记得把每种架构的测试数据、驱动适配情况、指令翻译效果都记录好,后续还要整理成发布会素材。”

梁锋文眼睛瞬间一亮,这话简直说到他心坎里了。

吴军转身离开后,实验室里只剩下林野和梁锋文两个人。梁锋文这才彻底放松下来,重新变回那个敢说敢骂、性子火烈的 AI 大佬。

“还是吴老师懂行。” 他搓了搓手,迫不及待地凑到第一台立方体存算单元前,指尖都想碰,又强行忍住,转头看向林野,“林野,快给我说说,这五台机器,分别对应哪五种架构?参数、布线情况、各自的优劣,你先给我科普下,我测试的时候也好针对性观察,尤其是驱动适配和指令翻译的细节,我得重点看。”

林野笑着点头,递给他一份打印好的架构参数表,顺势介绍道:“这五台机器,对应我们打磨的五种存算原型,全都是室温超导架构,临界温度200摄氏度以上,不用考虑发热,只看布线、算力释放和驱动适配效果,具体参数和优劣我慢慢跟你说,你边听边看,咱们同步启动测试。”

“第一种,就是我们最初给测试的主力架构:每100万个存算小单元(2048比特),对应一个强计算运算中心。优点是强算力集中......”

“第二种:每400万个存算小单元(2048比特),对应一个强计算核心......”

“第三种:没有强计算核心,存算小单元为2048比特,可根据计算任务自由组合......”

“第四种:小存算单元为256比特,没有强计算核心,可根据计算任务自由组合......”

“第五种:每100万个存算小单元(256比特),对应一个强计算运算中心,小存算单元可完全自由组合......”

梁锋文听得很认真,手里的笔在参数表上快速标注,时不时点头,还不忘追问:“也就是说,第五种架构是综合最优的?但我最关心的是,这五种架构跑我们的大模型,速度差距能有多大?驱动适配会不会出问题?比如我们的模型代码复制过去,能不能完美自动翻译,会不会出现指令错乱、性能损耗的情况?还有,布线的差异,会不会影响长期运行的稳定性?”

“你放心,驱动适配和指令自动翻译的问题,我们已经提前解决了。” 林野笑着点头,“你们的模型代码,不管是TensorFlow还是PyTorch框架的,复制粘贴到我们的系统里,会自动翻译成对应架构的底层指令,不会出现错乱,性能损耗也能控制在1%以内。至于速度差距,咱们现在就测,跑完你就有直观感受了,布线的稳定性,也能通过长期测试看出来,我给你每台机器都安排了连续测试任务。”

梁锋文搓了搓手,眼神里满是急切:“好!那就别废话了,接上去!我今天带来的,是我们DeepSeek 最新一代基座大模型,还没对外发布。参数规模、计算量、吞吐压力,全是业内顶格。我就想知道一件事 —— 它在这五种架构上,到底能飞成什么样子?还有,五种架构的驱动适配和指令翻译效果,到底有没有你说的那么好?”

林野没废话,直接抬手示意:“接上去。咱们先从第一种架构开始,依次测试,每台机器都跑相同的模型任务,相同的数据集,保证测试的公平性,同时记录下驱动适配时长、指令翻译延迟、训练速度、功耗和算力利用率。”

新型的数据传输线一插,认证一过,梁锋文直接把模型代码复制粘贴到系统里 —— 果然像林野说的那样,系统自动弹出“底层指令正在翻译”的提示,不到一分钟,提示消失,显示“指令翻译完成,驱动已成功适配,可直接启动训练任务”。

梁锋文瞳孔猛地一缩,“…… 这么快?驱动适配和指令翻译,竟然不到一分钟?我还以为要等个几分钟,甚至十几分钟。”

“驱动我们提前做了针对性优化,五种架构的驱动都已预装完毕,而且指令自动翻译模块是我们自研的,专门适配超导存算架构,效率自然高。” 林野笑着解释,“而且存储是全域超导,一年前就量产了,结构不变,只是堆叠的层数更多了。带宽也优化过,是你的数据线在拖后脚。数据进来,直接落在计算单元旁边,不需要搬运、不需要调度、不需要跨节点同步。存即是算,算即是存,再加上驱动和指令翻译的优化,速度自然快。”

梁锋文喉咙滚了滚,不再多话,直接敲下启动指令。DeepSeek 新一代基座大模型,全量预训练任务,在第一种架构上,正式启动。

下一秒,他自己的监控面板,炸了 —— 原本在他自家 GPU 集群上,第一步梯度收敛要将近 40 秒。在第一种架构上,只用了 800 毫秒。快了接近50 倍。

梁锋文手一抖,差点把电脑摔了,“我靠……” 他低声骂了一句,眼睛死死盯着曲线,“继续跑!别停!跑完这一套,立刻切换到第二种架构!我要看看五种架构的差距到底有多大!”