论文阅读：Meta-Prompting

元提示：任务-不可知论框架强化语言模型

“不可知论”，通常用来描述可以应用于多种不同任务的模型，指模型并非为解决特定任务而设计

github.com

摘要：

由大模型的输出依旧不准确，引出一个问题是否有一套框架能够细化、提高准确性
本文工作
- ( i )将复杂的任务或问题分解成更小的、可管理的部分；
- ( ii )将这些片段分配给专门的”专家”模型，并提供详细的自然语言说明；
- ( iii )监督这些专家模型之间的交流；
- ( iv)在整个过程中运用自己的批判性思维、推理和验证技能
该方法能够使单个黑盒LM有效地作为中心体和不同的专家小组发挥作用，以产生更准确、可靠和连贯的响应
与其他框架不同的是，元提示在不同的任务和输入中使用同一套高级指令

元提示：使用一个模型2来协调和执行多个独立的查询，随后合成响应结果以呈现最终的响应结果
- 单一的通用模型可以为通用查询提供有价值的结论，但将多个特定领域模型的观点和结论结合起来，有可能产生更全面、更稳健和更准确的解决方案。
程序
- 转换输入：将输入转换至合适的模板内
- 循环
  1. 当前消息列表H_t直接传给特定领域专家获得回答
  2. 如果无返回回答，将消息列表传给任意领域专家，从回答中提取指令，再添加到新的模板内
  3. 返回最终答案：如模型答案包含最终答案，则抽取答案并返回
  4. 若模型返回不包括最终答案也不包括专家调用，则在消息列表Ht中附加一条错误报告
元和专家模型规范：Meta和Expert两种能力中发挥作用根据其提示语中各自的模型指示来区分，元模型遵循图3中提供的一组指示，而专家模型遵循由元模型在推理时动态确定的单独指示

baseline：标准提示，0-shot CoT，专家提示多人提示
数据集和任务：EM for Geometric Shapes, Multi-Step Arithmetic Two, and Checkmate-in-One; SM for MGSM and Word Sorting,; and FC for Game of 24, Python Programming Puzzles, and Shakespearean Sonnet Writing.
- 包含了数学、算法推理、诗写作多种任务
答案提取和评价方案
- 答案包含在三引号中
- 定义了三个指标
  - Exact Match (EM)：答案与真实答案精确对齐指标
  - Soft Match (SM)：在模型的输出中存在一个基本的真值标签是可以的
  - Functionally Correct (FC): 确定答案在功能上是否正确
模型与推理主要使用GPT-4 temperature=0 top-p=0.95 max_token=1024