论文阅读:Meta-Prompting

元提示:任务-不可知论框架 强化 语言模型

“不可知论”,通常用来描述可以应用于多种不同任务的模型,指模型并非为解决特定任务而设计

github.com

摘要:

  • 元提示引导 LM 将复杂的任务分解为更小、更易于管理的子任务,子任务由同一 LM 的不同“专家”实例处理,每个实例都在特定的、定制的指令下运行

  • 使用批判性思维和验证流程来完善和验证最终结果

  • 协作提示方法使单个 LM 能够同时充当综合协调者和多元化专家小组,从而提高其在各种任务中的表现

  • 下图为元提示在三个任务中的准确性图(使用python与元提示结合的方式得出的结果)

Introduction

  • 由大模型的输出依旧不准确,引出一个问题 是否有一套框架能够细化、提高准确性

  • 本文工作

    • ( i )将复杂的任务或问题分解成更小的、可管理的部分;

    • ( ii )将这些片段分配给专门的”专家”模型,并提供详细的自然语言说明;

    • ( iii )监督这些专家模型之间的交流;

    • ( iv)在整个过程中运用自己的批判性思维、推理和验证技能

  • 该方法能够使单个黑盒LM有效地作为中心体和不同的专家小组发挥作用,以产生更准确、可靠和连贯的响应

  • 与其他框架不同的是,元提示在不同的任务和输入中使用同一套高级指令

  • 循环过程:a )为元提示模型注入指令,( b )元提示模型的输出(提示基于整个历史),( c )专家的输出(只有在元模型生成的指导语上才有新提示)。

Meta-prompting

  • 元提示:使用一个模型2来协调和执行多个独立的查询,随后合成响应结果以呈现最终的响应结果

    • 单一的通用模型可以为通用查询提供有价值的结论,但将多个特定领域模型的观点和结论结合起来,有可能产生更全面、更稳健和更准确的解决方案。

  • 程序

    • 转换输入:将输入转换至合适的模板内

    • 循环

      1. 当前消息列表H_t直接传给特定领域专家获得回答

      2. 如果无返回回答,将消息列表传给任意领域专家,从回答中提取指令,再添加到新的模板内

      3. 返回最终答案:如模型答案包含最终答案,则抽取答案并返回

      4. 若模型返回不包括最终答案也不包括专家调用,则在消息列表Ht中附加一条错误报告

  • 元和专家模型规范:Meta和Expert两种能力中发挥作用根据其提示语中各自的模型指示来区分,元模型遵循图3中提供的一组指示,而专家模型遵循由元模型在推理时动态确定的单独指示

实验

  • baseline:标准提示,0-shot CoT,专家提示多人提示

  • 数据集和任务:EM for Geometric Shapes, Multi-Step Arithmetic Two, and Checkmate-in-One; SM for MGSM and Word Sorting,; and FC for Game of 24, Python Programming Puzzles, and Shakespearean Sonnet Writing.

    • 包含了数学、算法推理、诗写作多种任务

  • 答案提取和评价方案

    • 答案包含在 三引号 中

    • 定义了三个指标

      • Exact Match (EM):答案与真实答案精确对齐指标

      • Soft Match (SM):在模型的输出中存在一个基本的真值标签是可以的

      • Functionally Correct (FC): 确定答案在功能上是否正确

  • 模型与推理主要使用GPT-4 temperature=0 top-p=0.95 max_token=1024

  • 从实验结果来看,元提示可以以任务无关的方式利用Python解释器,在许多任务中显著地提高性能

  • 对实验结果的分析

    • 这种方法被证明在处理严重依赖于启发式或迭代试错问题解决策略的任务时特别有效。

    • 元提示框架的成功在于策略性地使用了专业知识、自我协作和隐含的验证循环

      • 群体智慧策略:一组不同的批判性思想家的集体意见往往超过个别专家的见解。

      • 应用群体智慧实现任务零样本分解、错误检测和答案的聚合

    • 元提示( meta-prompting )中,通过邀请专家或人物来重新评估问题,引入了新的视角。这种方法为新的见解和潜在的发现以前未被注意到的不正确的解决方案提供了机会

    • 实时代码执行能够对解决方案进行即时验证和优化,大幅提高问题求解的效率和精度。

讨论

  • 元提示补充个分析

    • 元模型对专家类型的动态选择清晰地说明了其与具体任务需求的适应性和策略性契合

    • 在元模型中达到解决方案所需的平均轮数在不同任务之间存在显著差异

    • 元模型的系统验证协议加强了其解决方案的可靠性和健壮

    • 元提示使元模型能够比其他提示方法更频繁地承认有效解的缺失或不可能,或无法找到有效解

    • 通过对比gpt-4和gpt-3.5发现,模型的规模、语料库的质量和大小等因素可能会显著影响元提示方法的效果。

  • 元提示的局限性

    • 成本效率、可扩展性、操作线性度、域限制、信息传输挑战和响应模式方面都存在一定限制

结论

  • 元提示,以 与任务无关的形式 增强语言模型能力

    • 利用LM充当中心体和专家实例,赋予传统模型动态的多功能能力

  • 元提示能够熟练地分解复杂的任务,为每个组件提供不同的专业知识,无缝地集成不同的输出

版权声明:本文为博主作者:玄宁原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/weixin_44091497/article/details/136459512

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2024年4月10日
下一篇 2024年4月10日

相关推荐