AGI 全称是 Artificial general intelligence,其中 general 代表通用。“通用”有两层含义:第一是像人一样,最大程度的接近人类智能,处理识别、总结、推断、解释、计划等工作生活无数多样任务;第二是在处理无数多样的任务时,像人一样举一反三,不需要每样任务单独学习和训练,即可通关。

AGI 是人工智能细分领域学者的终极理想,它还未成现实。OpenAI,DeepMind,以及最近大热的 Claude 背后的公司 Anthropic,是 AGI 在应用层的实践者。它们产品背后的大语言模型,是 AGI 得一种实践方式。大语言模型只在自然语言处理这个领域表现出色,AGI 的所以你看到图片处理、视频处理、语音分析,是由别的公司在做。AGI 现在的范畴和未来的野心,不仅仅是处理自然语言。

基于大语言模型的 ChatGPT 和 Claude 等应用,与以往的自然语言处理应用有显著的差异,让人觉得它有通往 AGI 的潜力。

首先是对话能力,让你觉得使用时在和真人聊天。以往智能机器人和智能客服电话中,你轻易感觉到对面是机器人,因为它们对话的模式单一,很容易超出场景所需的对话范围,让人觉得它无法理解你的意图。而大语言模型的通用性,让对话场景无限扩大,你觉得对 ChatGPT 问任何问题,它都能对答如流,即使有违事实。这是因为它被训练出来,目的就是为了应答对话,生成语言。它不能不生成回答。只有少数时候,人的提问超过它能回应的范围,或者应为用人工训练校准,让它刻意不回答某些问题。

除了对话范围,ChatGPT 的多轮交互和上下文联系能力,让它更接近像人一样对话。它能识别几轮对话之前中一个名词或者代词,在新的对话中,你用 ”某某“ 来指代一个之前提到名词,它能正确理解你的意思。

以往的自然语言处理模型通常只专注于某一单一任务,比如机器翻译、信息提取、文章生成应用,背后是不同的模型。机器翻译领域表现出色的模型无法迁移到信息提取任务上。ChatGPT 通过海量人类语言数据,学习到几乎所有语言和世界知识表达方式,具备了不同场景通用和跨任务迁移能力。一个通用模型,实现多个专门模型的任务,可以在应用层面极大降低用户门槛。

通用性的普及,用户可以实现很多小众、长尾、用专业模型实现成本高的任务。比如自然语处理常见任务是分词、情感分析、信息抽取、文本分类、翻译、文本摘要、词性标注,诸如写诗、对对联、出阅读理解题这类任务,并无专门应用满足。体验过 ChatGPT 的人,应该都理解它在生成诗句、对联、出题些任务中的能力。而看似更离谱的“按苏格拉底的风格来赞美一个扫地机器人“,也只有 ChatGPT 能给你生成了。

这些看似离谱的任务,实则扩充了使用场景,而自然语言的无限广延性,让场景数量在理论上可以无限多,会碰撞出很多看似无关事物组合的远距联想,诞生让 ChatGTP 制造者也会感叹的用例。

如果说大语言模型产品的通用性价值在于低成本满足无数长尾需求,它首当其冲适合用来改造软件行业。

已有的软件应用中,主要分成两类,聊天机器人和文本生成。前者有智能客服产品,后者有 Shopify Magic,在商家后台内置商品详情文案的 AI writer;Notion AI,让 AI 生成内容 block 插入文档。

只是你不一定在客服产品和文案产品领域工作。大语言模型通用性如何用在任意领域的软件产品?

让我们先来看软件产品(尤其是 toB 软件产品)的用户路径:

起心动念的自然语言 → GUI 界面上的自然语言 → GUI 界面 → 抽象业务语言 → 能影响现实世界的自然语言。

这个路径反过来,也是软件的需求分析、逻辑设计、界面设计的生产路径。

用户需求是用你的软件完成工作任务,在个体层面,工作任务发起于心里的一个动念,我要做 XXX;最妄想情况下,用户能够从动念到做完一步到位。用什么软件、走什么流程、和谁协作,是倒霉的中间环节。

这个逻辑反过来,产品研发运营设计,做出软件,在抽象出业务逻辑到界面文案设计上,耗散了大量成本,只为实现一个目的:用户点鼠标,施加对现实世界的影响。想想和 UX 文案殚精竭虑得想出一条被用户吐槽困惑的文案,就更加相信使用软件之真实目的是什么。

人笑称 ChatGPT 是魔法,真正的魔法释放在软件产品上,它免去中间环节,实现 “起心动念的自然语言 → 能影响现实世界的自然语言”。

大语言模型的通用性,让我们看到了这个潜力,即一个通用软件低成本满足所有需求。