英国《金融时报》:中国AI模型震惊硅谷
英国《金融时报》1月25日文章,原题:中国小型人工智能初创公司深度求索如何震惊硅谷 本周,中国一家人工智能(AI)实验室发布尖端模型的“技术配方”,此举不仅震惊世界,也使其低调的负责人变成无视美国阻止中国高科技雄心企图的民族英雄。
1月20日,由对冲基金经理梁文锋创立的公司深度求索正式发布R1模型,并在一篇论文中详细解释了如何利用有限的自筹预算来构建一个大语言模型,该模型可在没有人工监督的情况下自动学习和自我改善。
包括OpenAI和谷歌DeepMind在内的美企率先开发出推理模型,这是一个相对较新的人工智能研究领域,旨在尝试使模型具有与人类相匹配的认知能力。上月,OpenAI发布o1模型的完整版本,但对创建模型的方法保密。
深度求索R1模型的发布在硅谷引发一场激烈辩论,主题是包括Meta和Anthropic在内资源更雄厚的美国人工智能企业能否守住技术优势。与此同时,梁文锋也成为提升中国国内民族自豪感的焦点人物。本周,在中国总理召开的一次座谈会中,梁文锋是唯一的人工智能企业负责人。
2023年梁文锋创建深度求索公司。“他建立一个出色的基础设施团队,他们真正了解芯片的工作原理。”另一家大语言模型公司的创始人说。
在华盛顿禁止英伟达向中国出口功能最强大的芯片后,中国本土人工智能企业被迫寻找创新方法,以最大限度地利用现有芯片的计算能力,而梁的团队已经知道如何解决这一问题。“深度求索公司的工程师知道如何释放这些图形处理器(GPU)的潜力,即使它们不是最先进的。”一名人工智能研究人员说。
业内人士表示,深度求索对研究的专注使之成为一个可畏的竞争对手,因为该公司愿意分享取得的突破,而非为获取商业利益保护它们。深度求索没有从外部基金筹集资金,也没有采取重大举措将其模型货币化。北京的一名人工智能行业投资者说:“深度求索的运作方式就像早期的DeepMind,它专注于研究和工程。”
深度求索仅用2048颗英伟达H800 GPU和560万美元,就训练出6710亿参数的开源大模型,这只是OpenAI和谷歌训练同等类型模型花费的一小部分。加州大学伯克利分校人工智能政策研究员里特维克·古普塔表示,深度求索最近发布的模型表明,“没有阻碍人们获取人工智能能力的壕沟”。他说:“训练模型第一人必须花费大量资源才能实现目的,但跟进者可用更少的费用且以更快的速度实现目的。”
古普塔还表示,中国拥有比美国大得多的系统工程师人才库,他们知道如何最好地利用计算资源,以更便宜的方式训练和运行模型。
美国的竞争对手也没有停滞不前。它们正在构建由英伟达新一代Blackwell芯片组成的超大型“集群”,从而创造出强大的计算能力,有可能再次拉开与中国竞争对手的性能差距。(作者埃莉诺·奥尔科特等)