OpenAI开发者日,看得汗流浃背

One more thing

Posted by Di Chen on November 6, 2023
  • OpenAI 的开发者日可以比肩苹果的发布会?
  • OpenAI 的野心在哪?
  • 如果说 AI 是10年前的电商,什么行业会是 10 年前的物流?
  • 普通人有什么可以抓住的机会呢?

OpenAI 的开发者日

openaidevday.jpeg

我看完 OpenAI DevDay 的录播之后的第一反应就是,很干,非常干,全是干货。

换做其他厂商可能要吹10分钟的点,Sam 一句话就讲完了,

  • GPT4 支持 128k 上下文。
  • 新 GPT 只需要 1/3 的价格。
  • GPT4 打通联网模式、插件模式、代码执行模式、Dall-E模型。
  • GPT 新增 log probability 输出。
  • 新增 json 格式支持。

这一串大招放完,相信 LLM 的从业者有不少看完都汗流浃背了。从 LLM 应用的开发者看来,这个体验类似乔布斯时代苹果发布会的 “One more thing” 了。

OpenAI DevDay的技术透视

GPT-4的128K上下文输入

GPT-4引入了长达128k词汇的上下文输入,这让许多以往难以处理的任务变得可能了。

举例来说,在处理一篇长博客、学术论文时,以往我们很难使用 one shot 或 few shot 给 GPT 提供例子,毕竟一个全文的 example 可能上万字,一下就把 token 用完了。如今,借助128K的上下文,我们可以重新尝试这个在长文本上使用 N shot example 的技巧了。

输出Log Prob的影响

model_distillation.png

GPT-4现在能够输出log probabilities(下一个词对应出现不同词汇的概率),而不仅限于单个 token(单个词)。这对于领域特定模型的蒸馏和微调来说是一个巨大的帮助。

以往,researcher 通常使用GPT-4生成的数据作为标注数据集,用于微调或蒸馏特定领域的小型模型。有了log prob作为输出,这个过程的收敛会变得更加容易。因为只有一个 token 作为输出的时候,只能根据这个 token 来计算损失函数的梯度,但是有了 log prob 就相当于连续采样了 N 次的结果,可以极大加快模型收敛的速度。

GPT-4价格下降

gpt4-pricing.png gpt4-turbo-pricing.png

GPT-4的价格下降,意味着之前成本考虑过高而无法实现的任务现在成为可能。

比如日志分析、电商回复、电话接线员这类工作,工作难度不大,但是需要处理的语言、文本量极大。

目前主要的难点就集中在,GPT3.5 的能力不足,GPT4 又太贵。但是目前 GPT4 直接打3折的情况下,很多为了克服 GPT3.5 能力不足而做的奇技淫巧就不必要了,或者由于 GPT4 价格太高而被砍的项目也可以重新立项了。

无需编程调教一个GPT Agent

GPT_Builder.jpeg

GPT Builder的推出显著降低了使用GPT的技术门槛。在此之前,进行有效的prompt engineering需要了解一系列技巧,如角色扮演、Auto Prompting 等。

GPT Builder似乎内置了这些技巧,使得用户仅需通过清晰表达需求就能完成 prompt engineer的过程。然而这些自动 prompt engineer 的最终 prompt 结果似乎也对用户不可见,用户不能复制 prompt 出来。如此一来在 OpenAI 上调试好的 Agent,只能在 OpenAI 上使用,实现商业上的护城河。

目前 GPT 落地各行业的一个难点在于难以把领域知识加入到 GPT 模型中,而 GPT Builder 的这个流程可以让你像教实习生一样教 GPT 知识,就可以更大规模地让 GPT 在更多行业落地了。

OpenAI 的野心

从这一系列举动可以看到,OpenAI 并不甘心仅仅做一个大模型的厂商,而是花了很大力气集成所有 AI 工具,TTS (文本语音转换)、图像生成、图像识别、语言大模型。同时也实现了很强的生态工程,例如 GPT builder,Assistants API。

openai_ambitious.jpg

看起来 OpenAI 还想要做一个流量入口,类似于钢铁侠中的 Jarvis,把所有 AI 相关的复杂度全部藏在自己的服务背后。这也是为什么我觉得很多 LLM 从业者看了会很紧张,假如创业的方向是做企业定制化 GPT、GPT智能助手、GPT的 prompt 商店,这些方向可能最后都会和 OpenAI 有直接的竞争。如果没有特殊的护城河,大概率会被 OpenAI 的新 feature 给取代。

就比如我之前为了解决大模型输出不是稳定 json 格式而做的一些工作,在 GPT 新增了 json_mode 之后就没有意义了。还有 ChatPDf 这类基于简化文本分块、矢量化、动态存取的应用,在 GPT4 集成了所有高阶功能之后,意义也不大了。

AI与RPA和机器人行业的共同成长

随着大型语言模型(LLM)的发展,RPA(Robotic Process Automation)和机器人技术正成为其重要的延伸。RPA 可以把软件操作给封装成 API,让 GPT 可以调用。而机器人可以把日常人的物理操作封装成 API。这些技术可以视为AI的“触手”,将智能扩展到实际的物理操作中。

类似于 10 年前物流行业的机会。10年前电商行业快速发展的时候,同样带动了物流行业的发展,淘宝、天猫、京东、拼多多巨大的物流需求让顺丰、四通一达等物流公司迅速崛起。

目前的软件、服务都是为人设计的,而不是为大模型设计的,如果要 GPT 能大幅提高生产力,就必须把人的一部分工作接替过来,除了 copilot 的模式之外,另一个可行的模式便是 GPT + RPA 或者 GPT + 机器人了。

gpt-rpa.jpg

例如,AI的广泛应用可能会遇到的“最后一公里”问题,如自动化流程中的文件上传,假如个人所得税 APP 不支持 API 调用,那自动化报税就可能卡在如何接入的问题上。这时候 RPA 软件就很关键了,如果能把这些应用通过 RPA 封装成 API,就能让很多原本手动做的操作完全自动化了。

另一个角度来说,但如果软件 A 不支持 API 调用,而软件 B 支持,那 GPT 作为入口的流量可能就会选择软件 B,从而慢慢蚕食软件 A 的市场份额。工具类的软件更需要慢慢支持更多大模型所需的 API。

普通人的机会

这里似乎应该插入一个卖 AI 课程的广告,可惜并没有。

就像工业革命前的纺织女工一样,缝纫机的出现虽然淘汰了一批技能,但也诞生了新的需求。

GPT 选择了降低进入门槛,让更多人可以通过 GPT builder 把自己的领域知识上传、调教成一个 GPT agent。顺着这个产品路径,前期必然会有很多补贴、鼓励措施让大家能尝到甜头,一如早期的 App Store。

GPT builder 所需要输入的领域知识可以来源于各行各业,例如导游可以上传自己选酒店、选路线的经验,XX游戏玩家可以上传自己的对战经验,恋爱大师可以上传自己的聊天心得和例子。这也是我觉得每个普通人都可以把握的机会,每个人的经历不同,必然有自己擅长和熟悉的领域,小到挑选好的水果,大到职业规划,都是值得尝试去调教的领域。

gpt-builder-everyone.jpg

同样的,比起上一门 Python 爬虫课或者 Python 数据处理课,不如好好玩玩 GPT。