大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

Table of Contents

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

1.导读

讲得通俗易懂，且格局拉满！基本覆盖了自ChatGPT以来的AI比较火的事件，还多次提到强人工智能AGI（人工通用智能）。对近几年的大型语言模型（ Large Language Models）进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读！！！

2.摘要和引言

从图灵测试开始讲起，人类一直在探索用机器掌握语言智能的方法。

在过去20年，语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型（LSTM等）。

最近这些年，通过在大规模语料库（数据集）上对Transformer模型的预训练，提出了预训练语言模型（PLMs），在解决各种自然语言处理（NLP）任务方面显示出了很强的能力。

近一两年（从20年的GPT-3开始），发现当参数尺度超过一定水平时，这些扩展的语言模型不仅实现了显著的性能提高，而且还表现出一些小规模语言模型（如BERT）中不存在的特殊能力（如上下文学习）。为了区分不同参数尺度下的语言模型，研究界创造了术语大型语言模型（LLM），用于描述具有显著规模的PLM（例如，包含数百亿或数千亿个参数）的PLM。

近半年来，ChatGPT（基于LLM开发的强大的人工智能聊天机器人）的推出，引起了社会的广泛关注。

总的来说，语言模型LM经过了如下4个阶段：

STM（统计语言模型）：例如基于马尔科夫链预测下个词。
NLM（神经语言模型/基于神经网络的语言模型）:例如RNN、LSTM等。
PLM（预训练语言模型）：例如GPT-1，GPT-2，Bert等。与NLM的不同是，将语言模型做成了“一劳永逸”的形式，即一个模型可以做很多事，只要训练了一个模型后，不需要下游任务进行复杂的微调。其中GPT-2将模型做成了Zero-shot的形式大大加强了预训练语言模型的性能。
LLM（大型语言模型）：GPT-3，PALM、ChatGPT、LLaMA、GPT-4等。与PLM最直观的不同是模型大了，训练数据多了。

作者在这给出了LLM出现后的3个情况：