新闻摘要生成-AI 厂商 API 记录

API 返回的例子：

核心底层能力：大厂开放的 NLP API

选型：

API	入参	Pro	Con
百度文心大模型	文本（max：1,000 字）,
摘要最大长度,
摘要最小长度	可控参数更多
质量相比其他有一些些惊艳的感觉
百度开放了精调接口，后续可用来提升质量
相信百度在 NLP 领域第一
有 Python package 调用非常简单	一个 app 历史周期只能用 2,000 次，发邮件申请了扩量，结果未知

用户输入场景和 roadmap

桌面浏览器

复制粘贴到输入框（复制内容的多样性和边界情况）：

复制网页 URL

浏览器插件（Chrome, 360, QQ）

Notion、飞书、石墨等插件

微信公众号 TBD

手机浏览器 TBD

用户界面

输入框

格式化：

保留段落格式，自动去掉富文本格式

特殊需转义字符的处理

最大输入限制：

数万字长文如何自动按单次 API 调用最大字数输入限制来分割

落地节奏：

Demo

本地 PyCharm + localhost 跑通 demo

搭前端框架、UI 界面

部署线上服务（云主机、域名）

技术选型

Django

学习路径

英文官方 handbook or video course for Django

产研构思步骤：

用户复制的信息，如何能够正确传入 API

格式化（去空行、去空格等）应该可以通过前端 JS 来实现，做网页的时候再处理
前端输入框需要限制用户复制进去的最大字数，暂定一万；但更理想的做法是，看目标用户所读新闻的长度
当前 API 选型的百度文心大模型，每次调用只能输入 1,000 字中文
- 将用户复制的文本，每超过 1,000 字截断一次保存下变量，输入 API 中
- 调研百度开放的另外一个模型精调 API 看输入上限是否能提高
- 不过，就算模型精调 API 也有个上限，也需要处理分段储存变量；不过如果上限足够高，可以在前端只做一次最大字数的性限制输入，然后全部传入 API