清华大学通用预训练模型：GLM

背景

论文：GLM: General Language Model Pretraining with Autoregressive Blank Infilling

OpenAI 借助 ChatGPT 所点燃的大语言模型（LLM）之火已在全球范围内燃烧了半年有余，而在此期间，OpenAI 与微软所推出的一系列基于 GPT3.5 或 GPT4 模型的 AI 产品也纷纷在不同领域取得了亮眼的表现。

然而令人略感失望的是，作为如今 LLM 圈内绝对的领头羊，OpenAI 并没有遵从其创立初衷，无论是 ChatGPT 早期所使用的的 GPT3、GPT3.5 还是此后推出的 GPT4 模型，OpenAI 都因“暂无法保证其不被滥用”为由拒绝了对模型开源，开启了订阅付费模式。

对于大型科技企业而言，不管是出于秀肌肉还是出于商业竞争目的，自研 LLM 都是一条几乎无可避免的道路。但对于缺少算力和资金的中小企业以及希望基于 LLM 开发衍生产品的开发者来说，选择开源显然是更理想的一条路线。

好在还是有一些选择了开源，那么就目前来看，在LLM领域，都有哪些优质的开源模型可供选择？

表1：开源大模型

开源模型	机构
GLM	清华大学
LLaMA	Meta
Alpaca	斯坦福大学
Dolly	Databricks
BLOOM	Hugging Face
MiniGPT4	阿卜杜拉国王科技大学
StableLM	Stability AI

在这些开源大模型中，GLM 由于效果出众而受到大众关注，而且清华大学开源了基于 GLM 架构研发的基座模型：ChatGLM-6B、GLM-130B。

截止到5月26号，ChatGLM-6B 全球下载达到200万，数百垂直领域模型和国内外应用基于该模型开发。联想、中国民航信息网络公司、360、美团都选择了 GLM-130B 作为基座模型。

[2023.05.28]科技部在中关村论坛上发布的《中国人工智能大模型地图研究报告》显示 ChatGLM-6B 位列大模型开源影响力第一名，千亿基座 GLM-130B、代码模型 CodeGeeX、文生视频模型 CogVideo、GLM 模型同时入围开源影响力前十
[2023.05.26]ChatGLM-6B 全球下载达到200万，数百垂直领域模型和国内外应用基于该模型开发
[2023.05.25]联想接入 ChatGLM-130B API 开发智能打印产品
[2023.05.15]中国民航信息网络公司基于接入 ChatGLM-130B API 开发航旅智能产品
[2023.04.25]清华研究生会基于 ChatGLM-130B 开发的【水木ChatGLM】上线，服务全校同学
[2023.04.24]360基于 ChatGLM-130B 联合研发千亿级大模型【360GLM】
[2023.04.15]值得买部署 ChatGLM-130B 私有化实例用于电商平台产品
[2023.04.14]美团私有化部署 ChatGLM-130B，联合研发【美团GLM】
[2023.04.13]ChatGLM-6B 开源30天内，全球下载量达到75万，GitHub 星标数达到1.7万
[2023.03.31]ChatGLM-6B 推出基于 P-Tuning-v2 的高效参数微调，最低只需7GB显存即可进行模型微调
[2023.03.18]ChatGLM-6B 登上 Hugging Face Trending 榜第一，持续12天
[2023.03.16]ChatGLM-6B 登上 GitHub Trending 榜第一
[2023.03.14]千亿对话模型 ChatGLM 开始内测，60亿参数 ChatGLM-6B 模型开源
[2023.03.10]竹间智能科技接入 ChatGLM-130B API 开发智能客服产品

知乎中文翻译：地址

明柳梦少

“A day without dancing is a betrayal of life.” ——Nietzsche

清华大学通用预训练模型：GLM

背景

关于明柳梦少

2023 年 9 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30