这几个字,像一块巨石,压在了每个人的心头。在场的都是公司高层,他们很清楚,一旦星火科技被列入实体清单,所有与美国技术相关的供应链,都可能在一夜之间断裂。
“28纳米,是目前国内产业链,最有希望实现‘去美化’的成熟工艺节点。选择它,就是为我们的GPU项目,上一道保险。我们追求的,首先是‘有’,其次才是‘好’。在一个随时可能被断供的沙滩上,建起一座再华丽的城堡,也是没有意义的。”
林星石的话,掷地有声。这番深思熟虑的战略考量,打消了众人最后的疑虑。
“我同意林总的判断。”周振第一个表态,“从技术角度看,28纳米虽然在功耗和性能密度上不如先进工艺,但它足够成熟,设计难度和流片成本也更低。对于我们的第一代GPU来说,这不失为一个稳妥的选择。我们可以利用相对成熟的工艺,先把架构做扎实,实现‘先可控、后扩展’。”
周振接着阐述了他的技术路径:“我们可以复用一部分在CPU项目上积累的EDA流程和基础IP,但GPU的并行计算架构是全新的挑战。我的想法是,初期我们不追求大而全,而是先针对视频编解码、浮点运算等核心单元进行重点突破,确保在特定场景下的能效比,能做到业界主流水平。”
如果说周振是从硬件设计上求稳,那么陈默则从软件生态上,提出了更高的要求。
“GPU的战争,硬件只占一半,另一半是软件生态。”陈默接过了话头,“英伟达之所以能有今天的地位,靠的就是CUDA。我们必须建立自己的软件栈,而且要让开发者用得舒服。”
“我的建议是,从项目启动的第一天起,软件团队就必须深度介入。我们要打造统一的驱动程序、编译器和计算库,目标是让已经熟悉CUDA编程的开发者,只需要修改极少的代码,甚至无需修改代码,就能将他们的应用,平滑迁移到我们的星耀GPU平台上。”
这个目标的难度,不亚于再造一个CUDA,但陈默的语气却充满了不容置疑的决心。星火科技最强的就是软件,这是他们的立身之本。
当技术路线逐渐清晰,硬件工程负责人陈远,则将话题拉回了更现实的层面。
“我补充一点,关于工程落地的问题。”陈远的发言向来务实,“GPU是耗电和散热大户。我们在设计芯片的时候,必须同步考虑它的封装、散热方案,以及在机架上的可维护性。”
他调出了一张数据中心内部的实景图。
“一块计算卡,从上架、通电、满负荷运行到最终故障下线,它的一生,都是在数据中心里度过的。我们的设计,不能只停留在实验室里。一线运维工程师,能不能在三分钟内,完成一块故障卡的更换?在高密度部署时,整个机柜的散热风道会不会出现问题?这些看似琐碎的细节,直接决定了我们产品的最终使用成本和口碑。”
陈远的话,让在场的芯片设计师们,都陷入了沉思。他们习惯了从性能和功耗的角度思考问题,却往往忽略了“工程可落地性”这个同样重要的维度。
会议的最后,进入了需求方表态环节。
AI实验室的负责人率先发言:“我们早就盼着公司能有自己的计算卡了!我们现在有大量的模型训练任务,都因为算力成本太高而排队。如果我们能有自主可控的GPU,我们的算法迭代速度,至少能提升三倍!”
紧接着,A站的视频技术总监也激动地表示:“视频转码是我们的核心成本之一。如果星耀GPU能针对主流的视频编码格式进行硬件加速,每年至少能为公司节省上亿的带宽和服务器成本!”
随后,游戏部门、滴滴的技术负责人,也纷纷表达了强烈的试点意向。从云游戏的光线追踪渲染,到滴滴出行的实时路线规划,几乎所有需要大规模并行计算的场景,都将是星耀GPU的潜在用户。
一场内部的立项会,开成了一场需求誓师大会。
从市场定位,到制程选择,再到软硬件技术路径,最后回归到工程实现与内部需求,一个“从需求中来,到产品中去”的完整闭环,悄然形成。
看着眼前这群斗志昂扬的猛将,林星石的眼中,露出了满意的微笑。
“好。”他站起身,做出了最后的总结,“星耀GPU项目,现在正式启动。陈默负责带队和软件生态,由周振负责硬件设计,陈远负责工程与制造。目标只有一个,在两年之内,让我们自己的数据中心,用上我们自己研发的GPU。”