能写论文、编代码、创作小说 爆红的ChatGPT是如何诞生的?( 三 )


不过,ChatGPT还远不完美 。因为这类人工智能对话机器人是通过消化互联网上公开的大量数据来成长的,所以,它们的知识结构中同时有事实和虚构的部分,传递的信息可能也会存在偏见、甚至仇恨言论等 。前述生物学家表示,ChatGPT“不禁逗”,一些问题回答错误或者无法解答 。
《麻省理工科技评论》在去年11月末尖锐地指出,所有的大规模语言模型都在输出“nonsense(愚蠢的话)”,ChatGPT看起来解决了一些问题,但远不是一个彻底的终结 。OpenAI的科学家约翰·舒尔曼也承认,还有很多事情要做,“我们在这个问题上取得了一些进展,但还远未解决” 。
“从水下100米到马里亚纳海沟”
长期以来,在AI领域,存在着一场旷日持久的争论:基于深度学习和超强算力的大模型训练,是否是抵达通用人工智能的最终道路?在这方面,OpenAI无疑是一个坚定的押注者 。
2018年6月,OpenAI发表论文《通过生成式预训练加强语言理解》,首次介绍了自己的语言模型GPT-1 。它在深度学习模型Transformer架构上,使用了内含几十亿个文本文档的超大规模语言资料库进行训练,参数量为1.17亿 。2019年2月,升级版GPT-2发布,模型参数达到15亿,且训练模型的数据库也更大;2020年,规模大百倍的GPT-3诞生 。
创新工场人工智能工程院执行院长王咏刚打了个比方,如果说传统的机器学习或人工智能是在水下一米的深处探索,那么深度学习的出现将人们带到了一百米的深水区;而在Transformer、GPT等架构后,从业者们直接能抵达深度超过万米的马里亚纳海沟 。
过去5年中,大规模预训练语言模型受到业内越来越多的重视 。王帅指出,过去依靠人工标注和精巧设计的训练方法,数据量大幅增加以后,表现并不好;相反,大家逐渐意识到,不断扩大模型规模、不断用更多数据去训练模型,是提高算法能力非常有效的一个手段 。
“目前看起来,这种模型太有用了 。而且从ChatGPT的结果来看,超出了我们的预料 。”王帅说,可以认为这种不断增加规模的大模型已经是领域的一种范式,可能人工智能领域未来有很多地方都可以用类似方法推进 。
“今天,全世界的人工智能研究有很多方向,也产生了大量的成果 。但是严格来说,所有这些最令人惊艳的结果,90%以上是基于Transformer迭代来的这些大模型技术得到的 。”王咏刚也指出,目前几乎所有的AI任务和项目,都会和大语言模型技术有关联,它已经代表了AI界最主流的科研和技术迭代方向 。
2022年7月,Alphabet旗下的DeepMind公司与欧洲生物信息研究所的团队合作公布了生物学领域的一项重大飞跃 。他们利用人工智能系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质 。许多研究人员表示,这一系列突破将加速新药开发,并为基础科学带来全新革命 。而Alphafold同样是基于Transformer结构的深度学习模型 。
OpenAI是一家非营利性的研究机构,于2015年成立,由特斯拉创始人马斯克、创业孵化器Y Combinator总裁山姆·奥特曼、PayPal联合创始人彼得·蒂尔等硅谷大亨们创建,其愿景是实现安全的通用人工智能,并向公众开放 。
多位受访业内人士指出,大规模语言模型并不是OpenAI的“独门技术”;再加上人才和资金的雄厚,谷歌、微软、百度等AI领域的巨头公司并不是无法复制下一个ChatGPT 。实际上,ChatGPT诞生之前,硅谷巨头们都意识到了大语言模型的重要性,比如,DeepMind也发布了人工智能聊天机器人Sparrow,Facebook母公司Meta也有自己的同类产品 。

推荐阅读