AI

GPT/LLM 落地的钥匙

提升 GPT/LLM 在多步任务的回答质量

Posted by Di Chen on July 29, 2023
  • 为什么目前 PM 设计的 GPT 落地的形式都是 copilot?
  • 为什么我不看好目前的 AutoGPT?
  • 为什么目前不需要担心 GPT 替代人的工作?
  • 比被 GPT 替代更可怕的是什么?
  • AI 项目和产品设计时最需要考虑的是什么?

为了方便理解,下文中会用 GPT 来替代 LLM。同时所有试验均是基于 GPT4 完成。

GPT/LLM 落地的前提

完成多步任务

在 GPT 爆火出圈后,许多公司都开始围绕 GPT 研发应用,例如:法律文书的撰写和检查、代码的撰写和检查、自动客服、信息检索等等。而这些应用,基本都是需要进行多轮 GPT 的对话来完成的

即使是最直观的写作助手里的功能,例如修改错别字、总结文章,如果要达到较好的效果,也需要使用多轮对话。假如我们使用 GPT4-32k 的模型,直接给 GPT 一段1万字的文章,让他找出其中需要修改的语病和错别字,无论实际有多少错别字,他大概率只会返回100-200字左右的回答。

这大概是由于在 GPT 进行 HFRL (Human feedback reinforcement learning) 阶段,使用的对话语料都不会太长,导致随着回答字数的增加,positional encoding 的编码随之变化,出现对话结束语的概率也随之增加。

flow2

那怎么克服这个 GPT 本身的问题呢?如果要实现最佳的效果,在不微调模型的前提下,需要把一个大的任务拆分成适合 GPT 完成的小任务,使得 GPT 能在他能力最强的范围内完成回答,最终再把结果组合起来。例如修改错别字的任务,一次性提供1万字的文章可能效果不好,但是拆分成1000字一段再用 GPT 分析,分析后组合起来的效果就好很多。这也是 AutoGPT 等项目的主要思路。

所以让 GPT 能成功完成多步任务,往往是产品落地的一个前提,但 GPT 成功完成多步任务的难度其实非常高

完成多步任务的挑战

既然像 AutoGPT 已经能主动拆分任务,并各个击破了,产品落地还有什么困难吗?

答案是概率。

要知道,即使 GPT4 也并不能在所有小任务上保证 100% 的成功率。GPT 本质上还是机器学习模型,会根据当前信息选取概率最高的单词。这也意味着,如果运气不好,选取到了一个错误的单词,GPT 也只能顺着话往下说。例如让 GPT 总结一个文章,GPT 可能弄错了文章中词语的一个前后关系,那这个错误就不会变化了。

假如每一个子任务有 99% 的成功率,而一个父任务有 10个子任务,那么顺序执行父任务的成功率就只剩下 90% 了。而实际产品使用的过程中,90% 也许就意味着不可用。

flow3

那有什么办法可以解决这个问题吗?

尝试 + 校验

让我们回顾目前成功落地的产品,例如 Github Copilot, Chat GPT,在使用的过程中,往往会有这样一个交互的形态:

flow4

  1. GPT 生成一个答案/代码/操作。
  2. 用户会校验这个结果是否可用。
  3. 用户也许会直接采用这个结果,也可能重新让 GPT 生成尝试,也可能自己少量修改结果后使用。

这个交互形态的背后的逻辑包括:

  1. 生成答案是更费时费力的,但判断挑选是更轻松的,所以让 GPT 来生成答案,人来挑选,可以节约时间。
  2. 生成答案往往是不完美的,达不到可用的成功率,但是通过多次尝试,可以提高成功率。

既然校验的难度更低,那是不是可以让 GPT 来进行校验呢?这也是一些 prompt engineering 的技巧背后的思路:让 GPT 多尝试几次,再让 GPT 自己校验答案。这样一来每个步骤的成功率就被提升到与校验成功率相近了。

flow5

例如生成一个符合需求的文章标题成功率是 90%,但是校验文章标题是否符合需求的成功率是 99%,那么只要进行多次尝试,就可以接近 99% 的成功率完成这个任务。

这个思路确实可以提高 GPT 生成答案的质量,也是类似 AutoGPT 的项目火起来的基础。但是我仍然不看好当前阶段的 AutoGPT。

与人脑流程的对比

GPT 要自主完成多步任务,其实是在模仿人脑的逻辑思考和计划的过程。但是人在思考时,有许多隐含的思考流程是没有被识别出来的。我们拿修改润色润文章的这个简单过程来做个对比。

这个过程如果只用一句提示词 ”请修改润色这篇文章“,那么 GPT 的回答可能会出现下面的问题:

  1. 漏掉部分语句,因为 GPT 并不保证注意力机制会逐句分配。
  2. 识别出不需要改的字,并强行修改,使得语句更不通顺。
  3. 识别出了需要改的字,但是提供的修改不是最好的

换做人的思考流程来看,看起来只是人阅读一遍,然后一个个字修改,但隐含的思考可能包括:

  • 一边阅读,一边一句一句地进行判断:
    • 判断:这句话阅读起来是否通顺,是否有可能包含错别字?
      • 识别:如果可能包含错别字,识别出错别字。
      • 生成:根据识别出的错别字,生成用来替换的字。
      • 重新判断:判断替换的字是否能阅读通顺,是否解决了错别字的问题。
      • 潜意识判断:在行文风格和全文级别,这个修改是否合适。

flow6

而人脑的思考并不是只做一遍的,其实是一遍一遍不停地循环的,而 GPT 其实只做了一最简单的生成。如果要达到与人脑相似的精度和可控程度,我们也需要让 GPT 不停地循环,从而保证 GPT 做出的每一个操作都是高成功率的。

而让 GPT 不停循环,并不能保证在一定循环数量内达到目标效果,假设回复一个客户需要10分钟的时间来循环生成答案,这个在时间和调用 API 的成本上都是不可接受的。

为什么产品设计形态以 copilot 为主

从前面的分析,我们可以得出,对于一个任务来说,GPT 对一个任务的完成度可能是 60%,后续每提升 10% 的完成度可能就需要额外的几倍成本。

cost_vs_precision

所以现在最多的产品形态就是 copilot,用人脑的判断能力来解决 LLM 在精度和可控程度上的不足。

为什么我不看好目前的 AutoGPT

同理,AutoGPT 的愿景很美好,但是也决定了,高成功率,高精度和低成本之间是不可兼得的。

  • 如果让 AutoGPT 自动化复杂的事情,操作的步骤数可能会很多,也就很难保证正确性。而一些操作在没有 100% 正确性的前提下,是不能使用的,比如购物、订票、法律建议等等。
  • 如果让 AutoGPT 做简单的事,步骤数较少时,价值往往也不大。就像 Siri 一样。

从商业化的性价比出发,我认为 AutoGPT 的形式目前来说并不合适。这也是为什么我认为不需要担心 GPT 替代人的工作。

未来的发展方向

对比人脑的思考方式和 GPT 的使用方式,可以看出来 GPT 对生产力的提升主要在于一次生成内容的成本上。

  • 原模式:人进行多次循环的思考,生成一个高可控高精度的答案。
  • GPT模式:GPT 单次推理,生成一个可控度低,质量有起伏的答案。由人选择质量高的答案采用。

进一步全自动化的难点就在于可控性。我觉得最主要的优化方向就是通过垂直场景的训练集微调或者蒸馏。类似于熟能生巧的方式,用足够多的训练集微调模型,使得不需要多次循环也可以生成更高精度高可控的答案。

而在准备训练集的过程中,可以用 copilot + 人类识别的方式来提高生产力,同时累积数据集。这个也类似于 Midjourney 的模式,先通过免费让大众使用,来获取人类的偏好数据,从而利用人类的打分不断提升模型质量。

比被 GPT 替代更可怕的是什么

在未来,我们可能会看到 GPT 和人类不断合作,人类扮演类似数据标注员的角色,为模型生成的内容提供反馈,挑选出适合使用的内容。

而人在这个过程中,就如同一块块电池,给 GPT 提供养料,让 GPT 不停积累数据,提高能力,最终完全替代某些人类的工作。就像黑客帝国中,人虽然还存在,但引以为傲的创造力,智慧,甚至尊严,都被无情地剥夺了,成为了无意识的数据提供者。

human battery

这是一种深深的讽刺,也是一种残酷的真实。我们自己创造出来的工具,却在资本逐利的驱使下,蚕食我们存在的意义。