【文心一言 vs. 通义千文】一言对千问：自百度之后，阿里终于还是出手了——通义千问

通义千问：

https://tongyi.aliyun.com/通义千问https://tongyi.aliyun.com/

通义千问：

达摩院 GPT-30B 模型复现

GPT-3 模型介绍

GPT3中文30B参数量文本生成模型

模型描述

期望模型使用方式以及适用范围

如何使用

模型局限性以及可能的偏差

训练数据介绍

模型训练流程

预处理

训练

推理加速

数据评估及结果

还没有亲测“千问”，等后面补上。

这里，先看看达摩院之前做的 GPT 模型效果吧。

达摩院 GPT-30B 模型复现

GPT3论文：Language Models are Few-Shot Learner ： https://arxiv.org/abs/2005.14165

GPT-3 模型介绍

最近的工作通过对大量文本的预培训，然后对特定任务进行微调，在许多NLP任务和基准方面取得了巨大进展。虽然通常在架构中与任务无关，但这种方法仍然需要数千或数万个示例的特定任务微调数据集。相比之下，人类通常只能从几个示例或简单的指令中执行新的语言任务——这是当前NLP系统仍然在很大程度上难以做到的。

Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions – something which current NLP systems still largely struggle to do.

在这里，我们表明，扩展语言模型极大地提高了与任务无关、少发的性能，有时甚至通过之前最先进的微调方法达到竞争力。具体来说，我们训练GPT-3，这是一个具有1,750亿参数的自回归语言模型，比之前任何非稀疏语言模型多10倍，并在短镜头设置中测试其性能。对于所有任务，GPT-3的应用没有任何梯度更新或微调，任务和少镜头演示纯粹通过与模型的文本交互来指定。GPT-3在许多NLP数据集上实现了出色的性能，包括翻译、问答和完空任务，以及一些需要实时推理或领域适应的任务，例如解词、在句子中使用新单词或执行3位数算术。与此同时，我们还确定了一些GPT-3的少量学习仍在挣扎的数据集，以及一些GPT-3面临与大型网络语料库训练相关的方法问题的数据集。最后，我们发现GPT-3可以生成人类评估者难以与人类撰写的文章区分开来的新闻文章样本。我们讨论了这一发现和一般GPT-3的更广泛的社会影响。

Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine- tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3’s few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.

首先，从实际角度来看，每个新任务都需要大量带标签的示例数据集，这限制了语言模型的适用性。存在非常广泛的可能有用的语言任务，包括从纠正语法，到生成抽象概念的示例，再到批评短篇小说。对于其中许多任务，很难收集大型监督训练数据集，特别是当每个新任务都必须重复该过程时。

First, from a practical perspective, the need for a large dataset of labeled examples for every new task limits the applicability of language models. There exists a very wide range of possible useful language tasks, encompassing anything from correcting grammar, to generating examples of an abstract concept, to critiquing a short story. For many of these tasks it is difficult to collect a large supervised training dataset, especially when the process must be repeated for every new task.

其次，随着模型的表现力和训练分布的狭窄，在训练数据中利用虚假相关性的可能性从根本上增加。这可能会给预训练加微调范式带来问题，其中模型被设计为大型，以便在预训练期间吸收信息，然后在非常狭窄的任务分布上进行微调。例如，[HLW+20]观察到，较大的模型不一定能更好地推广分布外。有证据表明，在此范式下实现的推广可能很差，因为该模型过于特定于训练分布，并且在它之外没有很好地推广[YdC+19，MPL19]。因此，在特定基准上微调模型的性能，即使名义上处于人类水平，也可能夸大基础任务的实际性能[GSL+18，NK19]。

第三，人类不需要大型监督数据集来学习大多数语言任务——自然语言的简短指令（例如“请告诉我这句话是否描述了快乐或悲伤的东西”）或最多少量的演示（例如“这里有两个人们表现得勇敢的例子；请举出第三个勇敢的例子”）……

解决这些问题的一个潜在途径是元学习1——在语言模型的背景下，这意味着模型在训练时发展了广泛的技能和模式识别能力，然后在推理时使用这些能力来快速适应或识别所需的任务（如图1.1所示）。最近的工作[RWC+19]试图通过我们所谓的“上下文学习”来做到这一点，使用预训练语言模型的文本输入作为任务规范的形式：该模型以自然语言指令和/或任务的一些演示为条件，然后只需预测接下来会发生什么，即可完成任务的进一步实例。

在本文中，我们通过训练一个1750亿个参数自回归语言模型（我们称之为GPT-3）并测量其上下文学习能力来测试这一假设。具体来说，我们在二十多个NLP数据集上评估了GPT-3，以及几项旨在测试快速适应不太可能直接包含在培训集中的任务的新颖任务。

对于每个任务，我们在3个条件下评估GPT-3：

（a）Few shot “少发学习”，或上下文学习，我们允许尽可能多的演示，以适应模型的上下文窗口（通常为10到100），

（b）One shot “一次性学习”，我们只允许一次演示，以及

（c）Zero Shot “零发”学习，不允许演示，只给模型自然语言的指令。GPT-3原则上也可以在传统的微调设置中进行评估，但我们把这留给未来的工作。

微调（FT）是近年来最常见的方法，涉及通过对特定于所需任务的监督数据集进行培训来更新预训练模型的权重。通常使用数千到数十万个带标签的示例。微调的主要优点是在许多基准上表现强劲。主要缺点是每项任务都需要一个新的大型数据集，分布外推广不善的可能性[MPL19]，以及利用训练数据[GSL+18，NK19]的虚假特征的可能性，可能导致与人类性能的不公平比较。在这项工作中，我们不微调GPT-3，因为我们的重点是与任务无关的性能，但GPT-3原则上可以微调，这是未来工作的一个有希望的方向。

Few-Shot（FS）是我们在这项工作中使用的术语，指的是在推理时对模型进行一些任务演示的设置，作为条件[RWC+19]，但不允许进行权重更新。如图2.1所示，对于一个典型的数据集，一个示例有一个上下文和一个所需的完成（例如英语句子和法语翻译），通过给出K个上下文和完成示例，然后是最后一个上下文示例，模型预计将提供完成。我们通常将K设置为10到100，因为这是模型的上下文窗口中可以容纳多少个示例（nctx = 2048）。少镜头的主要优点是大大减少了对特定任务数据的需求，并降低了从大而狭窄的微调数据集中学习过于狭窄分布的潜力。主要缺点是，到目前为止，这种方法的结果比最先进的微调模型差得多。此外，仍然需要少量特定于任务的数据。如名称所示，此处为语言模型描述的少发学习与ML[HYC01，VBL+16]中其他上下文中使用的少发学习有关——两者都涉及基于任务广泛分布的学习（在这种情况下，隐含在训练前数据中），然后快速适应新任务。

如图1所示，除了任务的自然语言描述外，除了只允许一次演示外，One-Shot（1S）与少数镜头相同。区分单发和单发和零发（下图）的原因是，它与一些任务传达给人类的方式最接近。例如，当要求人类在人类工人服务上生成数据集（例如Mechanical Turk）时，通常会对任务进行一次演示。相比之下，如果没有给出示例，有时很难传达任务的内容或格式。

ModelScope 魔搭社区

GPT3中文30B参数量文本生成模型

GPT-3模型是一个通用的预训练生成模型，使用Transformer的Decoder-only结构，可以用于解决下游各种类型的生成任务，特别是zero-shot生成能力。模型利用大量无监督数据，通过自回归任务进行预训练。可以用于解决文本生成相关的任务包含：文本摘要、问题生成、data-to-text等。

Demo体验，请点击右侧进入AI写手创空间!!!

模型描述

GPT-3模型使用Transformer的 Decoder结构，并对Transformer Decoder进行了一些改动，原本的Decoder包含了两个 Multi-Head Attention 结构，GPT-3只保留了 Mask Multi-Head Attention，利用常规的语言建模优化，从左到右的自回归预训练。本模型是基于GPT-3的代码结合大量中文无监督数据和下游任务数据预训练得到，我们训练了多种不同参数的模型，此处展示的是GPT-3 300亿参数模型。GPT-3模型介绍，详见：Language Models are Few-Shot Learners

本项目我们复现了一系列不同规模的中文GPT3模型，包括base/large/1.3B/2.7B/13B/30B/175B等，本模型是其中30B的版本。全部版本如下表所示：

Model	Layers	Heads	d_model	LR	Batch
base	12	12	768	6.0e-4	0.5M
large	24	16	1024	3.0e-4	0.5M
1.3B	24	32	2048	2.0e-4	2M
2.7B	32	32	2560	1.6e-4	2M
13B	40	40	5120	1.0e-4	6M
30B	48	56	7168	1.0e-4	6M
175B(work in process)	96	96	12288	1.2e-4	6M

期望模型使用方式以及适用范围

本模型可直接用于文本生成，也可以通过finetune用于各类文本理解的任务。用户可以自行尝试各种输入文档。具体调用方式请参考代码示例。

如何使用

因模型规模太大，暂不支持下载，可以先使用右侧demo进行测试体验

模型局限性以及可能的偏差

模型训练数据来源于网络，生成结果可能存在一定偏差。

训练数据介绍

训练数据包括中文维基百科、网络上公开文本数据。

模型训练流程

本模型的训练分为两个阶段。第一阶段严格按照原始GPT3的参数设置进行：在中文wiki/ Common crawl等无监督数据上，通过自回归的训练任务训练了约300B字得到。第二阶段中，我们加入了多种有监督数据继续训练，使得模型具备多种任务的zero-shot的处理能力。

预处理

暂无

训练

暂无

推理加速

我们对大规模生成模型的推理速度进行了极致优化，30B模型128字的文本生成可以在1.8秒左右完成。

数据评估及结果

您可以在本页面右侧的在线测试中体验本模型的生成效果。输入测试文本，点击执行测试。其中，有两个可配置的参数：

max_length: 最大长度设置，包含了输入和输出加起来的总最大长度
top_k: sampling decode生成的配置参数，用于确定当前生成从词表概率分布的top_k进行采样，该值设置的越大，模型生成的多样性越丰富，但同时相关性和准确性会有所下降

模型可以应用于作文生成，代码生成，小说续写，诗词生成等，以下展示了几个模型结果的示例：

作文生成

输入：以《我的家乡杭州》为题写一篇作文

输出：我的家乡杭州,有一个美丽的名字——天堂。 
杭州有许多美丽景点,比如雷锋夕照。雷锋夕照在哪?在市民广场,那里树木郁郁葱葱,鲜花五彩缤纷、争奇斗艳,是一个美丽的大花坛。每当夕阳西下,人们都会聚集在这里,拍照留念。还有美丽的断桥。在西湖的北面,有一座桥,叫断桥,断桥上有一座很长很长的断桥,人们都喜欢来这里拍照,感受那美丽的景色。 
杭州还有许多风味小吃。比如西湖醋鱼,外婆家的招牌小吃,是杭州的特色名菜。还有杭州的小笼包和牛肉面,味道都很美味。 杭州还有很多著名的特产,比如西湖龙井茶叶、西湖藕粉、西湖莼菜汤......都是杭州的特产,很好吃。 
杭州的风景美丽,物产丰富。我喜欢我的家乡,欢迎大家来杭州玩。

代码生成

输入：写一个python的快排代码

输出：

class Solution:
 def quicksort(self, nums: List[int], left: int, right: int) -> List[int]:
  if not right:
   return nums
  i = left
  j = right
  k = left
  p = left
  while i < j:
   p = i
   while p > j and nums[p] < nums[j]:
    p = p - 1
   nums[p] = nums[j] 
   j -= 1
   nums[i] = nums[j]
   i += 1
   if p > k:
    nums[k] = nums[j]
   else:
    nums[k] = nums[p]
    p -= 1
   k += 1
  nums[k] = nums[i]
  return nums

生活百科

输入：西红柿炒胡萝卜的做法：

输出：1.胡萝卜洗净去皮切丝2.锅中加水烧开,加入胡萝卜丝焯水,水里加入适量食盐,焯过水的胡萝卜丝过凉水后备用3.西红柿去皮切成小块,蒜切末。4.锅中加入油,油热后放入蒜末和西红柿,翻炒出香味儿。5.放入胡萝卜丝翻炒6.放入焯过水的胡萝卜丝翻炒7.放入盐、鸡精,翻炒均匀即可关火8.出锅,撒上葱花,一盘香喷喷儿的西红柿炒胡萝卜就做好了。小诀窍:焯过水的胡萝卜丝一定要放入凉水中,焯过水的胡萝卜丝会更脆,口感更好9.西红柿炒胡萝卜可以加入少许的白糖,这样炒出的西红柿更加的甜,口感更佳!

诗词生成

输入：寒随穷律变，春逐鸟声开。初风飘带柳，

输出：寒随穷律变,春逐鸟声开。初风飘带柳,细雨湿花苔。

ModelScope 魔搭社区

文章出处登录后可见！

已经登录？立即刷新

【文心一言 vs. 通义千文】一言对千问：自百度之后，阿里终于还是出手了——通义千问

通义千问 ：

达摩院 GPT-30B 模型复现

GPT-3 模型介绍

GPT3中文30B参数量文本生成模型

模型描述

期望模型使用方式以及适用范围

如何使用

模型局限性以及可能的偏差

训练数据介绍

模型训练流程

预处理

训练

推理加速

数据评估及结果

相关推荐

通义千问：