API 返回的例子:

文心大模型 API 调用效果案例记录

核心底层能力:大厂开放的 NLP API

选型:

API入参ProCon
百度文心大模型文本(max:1,000 字),
摘要最大长度,
摘要最小长度可控参数更多
质量相比其他有一些些惊艳的感觉
百度开放了精调接口,后续可用来提升质量
相信百度在 NLP 领域第一
有 Python package 调用非常简单一个 app 历史周期只能用 2,000 次,发邮件申请了扩量,结果未知

单次输入文本最大字限制 1,000 | | 华为 | 文本(max:10,000 字), title(默认无、最大 1,000 字), 摘要长度 | | | | 百度智能云 | 文本(max:3,000 字), title(默认无、最大 200 字), 摘要长度 | | | | 腾讯云 | 文本(max:2,000 字), 摘要长度(默认 200,最大不确定) | | |

用户输入场景和 roadmap

桌面浏览器

复制粘贴到输入框(复制内容的多样性和边界情况):

  • 复制一段文章
  • 复制多段文章
    • 带有空行的多个段落
    • 不带空行的多个段落
    • 带缩进 + 空行的多个段落
    • 带缩进 + 不空行的多个段落
  • 带有特殊需要转义的字符
  • 带有 Markdown 等富文本格式
  • 带有表格
  • 中英文混杂
  • 大部分是非中文的段落

复制网页 URL

浏览器插件(Chrome, 360, QQ)

Notion、飞书、石墨等插件

微信公众号 TBD

手机浏览器 TBD

用户界面

输入框

格式化:

保留段落格式,自动去掉富文本格式

特殊需转义字符的处理

最大输入限制:

数万字长文如何自动按单次 API 调用最大字数输入限制来分割

落地节奏:

Demo

本地 PyCharm + localhost 跑通 demo

搭前端框架、UI 界面

部署线上服务(云主机、域名)

技术选型

Django

学习路径

英文官方 handbook or video course for Django

产研构思步骤:

用户复制的信息,如何能够正确传入 API

  • 格式化(去空行、去空格等)应该可以通过前端 JS 来实现,做网页的时候再处理
  • 前端输入框需要限制用户复制进去的最大字数,暂定一万;但更理想的做法是,看目标用户所读新闻的长度
  • 当前 API 选型的百度文心大模型,每次调用只能输入 1,000 字中文
    • 将用户复制的文本,每超过 1,000 字截断一次保存下变量,输入 API 中
    • 调研百度开放的另外一个模型精调 API 看输入上限是否能提高
    • 不过,就算模型精调 API 也有个上限,也需要处理分段储存变量;不过如果上限足够高,可以在前端只做一次最大字数的性限制输入,然后全部传入 API