2017年11月,南都。
距离发布会开始还有一个小时,星火科技园园区外的交通已经彻底瘫痪。
数千家来自全球各地的媒体记者扛着长枪短炮,在安检口排起了长龙。
主会场内,巨大的环形屏幕环绕四周,营造出一种置身浩瀚星空的沉浸感。
“听说这次是那个东西?”前排,一位戴着谷歌工牌的工程师低声问身边的同伴。
“如果是真的,那硅谷今晚要集体失眠了。”同伴苦笑了一下,目光紧紧锁死舞台。
灯光骤然熄灭,全场瞬间陷入死寂。
一道光束像利剑般刺破黑暗,打在舞台左侧。
陈默走了出来。
三十岁的陈默,褪去了当年的青涩,那副标志性的黑框眼镜后,目光沉稳如水。
他走到舞台中央,直接开门见山。
“三年前,我们发布了GPT-1,让机器第一次学会了像人类一样遣词造句,虽然它那时还像个牙牙学语的婴儿。”
陈默的声音通过顶级的全景声音响系统,清晰地送入每个人耳中。
“去年,GPT-2问世。它开始理解逻辑,尝试创作,甚至写出了几篇像模像样的短篇小说。但作为它的创造者,我们很清楚,它依然有着一个致命的缺陷。”
身后的大屏幕上,出现了一个金鱼的图标,在水中吐着泡泡。随后,一个红色的叉号重重地打在上面。
“记忆。”
陈默推了推眼镜,语气变得严肃:“在座的各位可能都有过这样的体验:你和现在的AI助手聊得火热,倾诉你的烦恼,分享你的喜悦。但只要对话稍微长一点,或者隔了一天再打开对话框,它就会忘记你三句话前说了什么,忘记你是谁。它像一条只有七秒记忆的金鱼,永远活在当下。没有过去,也就无法构建真正的理解,更谈不上建立情感的羁绊。”
台下发出一阵会意的笑声和叹息。这是当前所有大模型,包括谷歌和OpenAI竞品在内的通病。受限于算力和架构,上下文窗口的长度一直是难以逾越的天堑。
“我们一直在问自己,如果AI能记得一切,会发生什么?”
陈默转过身,大手一挥。
身后的屏幕瞬间变换,无数的数据流如同瀑布般倾泻而下,最终汇聚成一片浩瀚璀璨的星云。星云中央,几个大字缓缓浮现,带着震撼人心的力量:
GPT-3:记忆自由
“GPT-3,基于星耀TPU集群训练的全新一代大模型。我们重构了底层的注意力机制,引入了稀疏注意力机制和长短期记忆映射增强模块,将其上下文窗口长度,提升到了惊人的千万级!”
“轰——”
如果说刚才只是低声议论,那么此刻,现场直接炸开了锅。懂行的技术专家们甚至不顾礼仪地站了起来,满脸的不可置信。
千万?
要知道,目前市面上最顶尖的模型,上下文窗口也不过是几万、十几万token。千万,这不仅仅是数量级的提升,这是维度的跨越!