【推荐】大语言模型综述(中文)

地址

论述地址

作者

赵鑫,周昆*,李军毅 *,唐天一,王晓磊,侯宇蓬,闵映乾,张北辰,张君杰,董梓灿,都一凡,杨晨陈昱硕,陈志朋,蒋锦昊,任瑞阳,李依凡,汤昕宇,刘子康,刘沛羽,聂建云,文继荣


摘要

自从 20 世纪 50 年代图灵测试被提出以来,人类一直在探索如何用机器掌握语言智能。语言本质上是一种由语法规则支配的复杂的人类表达系统,开发有能力理解和掌握一门语言的人工智能(AI)算法是一个重大挑战。

作为一种主要的语言理解和生成方法,语言建模在过去的二十年中得到了广泛的研究,其从统计语言模型发展为神经语言模型。近年来,通过在大规模语料库上预训练,基于 Transformer架构的预训练语言模型在解决各种自然语言处理任务方面表现出强大的能力。

由于研究人员发现扩大模型规模可以提高模型能力,因此他们通过将参数增加到更大的尺寸来进一步研究该效应。有趣的是,当参数规模超过一定水平时,这些规模扩大的语言模型的性能不仅得到了显著提升,而且还表现出一些小规模语言模型(如 BERT)所不具备的特殊能力(如上下文学习)。

为了区分不同参数规模下的语言模型,研究团体创造了术语——大语言模型(LLM)代指大型的预训练语言模型(如包合数百亿或数千亿个参数)。

近年来,学术界和业界极大的推进了针对大语言模型的研究,并在该方向取得了显著的进展,如 ChatGPT(一种基于 LLM 开发的强大 AI 聊天机器人)的推出,引起了社会的广泛关注。

大语言模型的技术发展对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI算法的方式。考虑到这一快速的技术进步,在本篇综述中,我们通过介绍大语言模型的背景、主要发现和主流技术来回顾近年来的进展。我们特别关注大语言模型的四个主要方面,即预训练、适配微调、应用和能力评估。此外,我们还总结了开发大语言模型的可用资源,并讨论了未来可行的发展方向。本文提供了关于大语言模型的最新文献综述,期望能为研究人员和工程师提供帮助。


Index Terms

大语言模型,涌现能力,适配微调,应用,对齐,能力评估


关于明柳梦少

坚守自己的原则,不随波逐流。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注