Open Pretrained Transformer (OPT) 是解决可访问性问题的里程碑

GPT-3 Out 中的 OPT — 2022 年 5 月 3 日,Meta AI 宣布了一种新的大型语言模型 (LLM) 开放预训练 Transformer (OPT-175B)。在这篇文章中,我们将讨论 OPT 如何为机器学习领域的可重复性设定基准,特别是自然语言处理 (NLP)。再现性是怎么回事? …

Open Pretrained Transformer (OPT) 是解决可访问性问题的里程碑

选择 GPT-3 输出

2022 年 5 月 3 日,Meta AI 宣布了一种新的大型语言模型 (LLM) 开放预训练 Transformer (OPT-175B)。在这篇文章中,我们将讨论 OPT 如何为机器学习领域的可重复性设定基准,特别是自然语言处理 (NLP)。

再现性是怎么回事?

可访问性与再现性问题高度相关。如果您有权访问有关该方法的信息,则可以重现该实验。为什么可重复性如此重要?让我们从更广泛的角度来处理这个问题,然后回到过去。大约在 16 世纪,智人在获取知识的方法上发生了重大变化。智人不再假设信息是正确的,而是开始使用科学方法来指定假设、进行实验、分析结果并得出结论。在过去的几个世纪里,科学家们利用这个过程来建立我们对自然世界和支配它的法律的集体理解。通过专注于科学发现的透明度和可重复性,我们在技术上取得了巨大进步。 (必须注意,定性方法不必产生可重复的结果。是的,定性方法仍然很强大)。

尽管可重复性是定量科学方法论的基本考虑因素,但 2016 年《自然》杂志的一项调查显示,超过 70% 的研究人员未能重现另一位研究人员的实验,超过 50% 的人未能重现他们自己的实验。 Pineau 等人,2021;贝克,2016)。

这是一个严重的问题。评估研究声明的可信度是科学过程的核心、持续且费力的部分(Alipourfard 等人,2021 年)。如果一项科学发现不可重复,它就违反了科学方法的基本前提。乔尔·皮诺等人。 (2021) 指出,机器学习研究的挑战之一是确保呈现和发布的结果是可靠的。 (注:Joelle Pineau 是 Facebook AI Research 的联合董事总经理和麦吉尔大学的副教授。她在使 OPT 可访问方面发挥了作用。)

不幸的是,学术论文并不总是提供可重复的结果,例如缺少步骤或缺乏有关其方法的信息。作为一名数据科学家,我在阅读 ML 论文时也多次遇到可重复性问题。

GPT-3 和重现性问题

当我们谈论再现性问题时,我们有一个房间里的大象,GPT-3。近两年来,OpenAI 给出了不让模型公开访问的粗略解释。关于 GPT-3,OpenAI 曾表示“公开太危险”。 Meta AI 清楚地认为,安全性不应成为一个问题,以至于您将模型保持在公众无法触及的范围内。在阅读 Meta 关于 OPT-175B 的博客文章后,我们可以看到,如果您认真地完成作业,可以在负责任的同时让 LLM 公开访问。[0]

Meta AI 在 OPT 的可访问性方面站在哪里?

  • Meta AI 团队一直关注使 OPT 模型可公开访问。他们使用了负责任的人工智能指南。我知道 Facebook 和负责任的人相处得不好,但我们到了。欢迎来到 2022![0]
  • OPT 团队与 Hugging Face 密切合作。 OPT 于 5 月 3 日宣布。目前,Hugging Face 共有六种型号可供选择:125M、350M、1.3B、2.7B、6.7B 和 30B 参数,截至 5 月 11 日。 175B 参数可通过应用程序访问。 OPT 论文的第二作者 Stephen Roller 正在与 Hugging Face 团队合作,以使各种 OPT 模型易于访问。[0][1]
  • OPT 团队(包括 OPT 论文作者)积极响应 Github 问题。[0][1]
  • OPT 接受了公开可用数据集的培训,以允许更多的社区参与了解这项基础新技术。

当前与 OPT 的可访问性挑战

  • 根据官方指南,OPT 需要 A100 80GB GPU。这对用户来说是一个巨大的可访问性障碍。[0]
  • 目前,它仅在 Azure 云服务上运行(基于官方指南)。在将 OPT 安装到我的本地计算机时,我看到 OPT 具有适用于 AWS 的基础设施。我相信我们会看到 OPT 与其他云计算平台的集成。
  • 各种安装问题。例如,它不适用于 Python 3.10.2,因为 Python 3.10.2 不支持所需的 torch 版本 (1.10.2)。
  • Metaseq 是用于使用 OPT 的代码库。不幸的是,正如 Stephen Roller 所说,“Metaseq 是出了名的不友好”。[0]

OPT 是一个令人兴奋的大型语言模型。一旦它变得更加用户友好,它将成为 NLP 领域的游戏规则改变者。在这篇文章中,我们想分享我们对 OPT 语言模型的可访问性方面的第一印象。在 GPT-3 大肆炒作并无法访问之后,我们希望 OPT 能够为大型语言模型的发展带来新的认识。在 Hugging Face 和 Transformers 库集成完成后,我们将有机会尝试它并再次在这里分享我们的经验!

Enes Gokce — NLP 数据科学家

Mehmet Emre Senel — Bogazici 大学计算机科学[0]

References:

Alipourfard, N.、Arendt, B.、Benjamin, D. M.、Benkler, N.、Bishop, M.、Burstein, M.、… & Wu, J. (2021)。系统化对开放研究和证据的信心(分数)。

贝克,M.(2016)。 1,500 名科学家揭开了可重复性的面纱。自然,533(7604)。

Pineau, J.、Vincent-Lamarre, P.、Sinha, K.、Larivière, V.、Beygelzimer, A.、d’Alché-Buc, F.、… & Larochelle, H. (2021)。提高机器学习研究的再现性:NeurIPS 2019 再现性计划的报告。机器学习研究杂志,22。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年5月13日
下一篇 2022年5月13日