API 返回的例子:
核心底层能力:大厂开放的 NLP API
选型:
| API | 入参 | Pro | Con |
|---|---|---|---|
| 百度文心大模型 | 文本(max:1,000 字), | ||
| 摘要最大长度, | |||
| 摘要最小长度 | 可控参数更多 | ||
| 质量相比其他有一些些惊艳的感觉 | |||
| 百度开放了精调接口,后续可用来提升质量 | |||
| 相信百度在 NLP 领域第一 | |||
| 有 Python package 调用非常简单 | 一个 app 历史周期只能用 2,000 次,发邮件申请了扩量,结果未知 |
单次输入文本最大字限制 1,000 | | 华为 | 文本(max:10,000 字), title(默认无、最大 1,000 字), 摘要长度 | | | | 百度智能云 | 文本(max:3,000 字), title(默认无、最大 200 字), 摘要长度 | | | | 腾讯云 | 文本(max:2,000 字), 摘要长度(默认 200,最大不确定) | | |
用户输入场景和 roadmap
桌面浏览器
复制粘贴到输入框(复制内容的多样性和边界情况):
- 复制一段文章
- 复制多段文章
- 带有空行的多个段落
- 不带空行的多个段落
- 带缩进 + 空行的多个段落
- 带缩进 + 不空行的多个段落
- 带有特殊需要转义的字符
- 带有 Markdown 等富文本格式
- 带有表格
- 中英文混杂
- 大部分是非中文的段落
复制网页 URL
浏览器插件(Chrome, 360, QQ)
Notion、飞书、石墨等插件
微信公众号 TBD
手机浏览器 TBD
用户界面
输入框
格式化:
保留段落格式,自动去掉富文本格式
特殊需转义字符的处理
最大输入限制:
数万字长文如何自动按单次 API 调用最大字数输入限制来分割
落地节奏:
Demo
本地 PyCharm + localhost 跑通 demo
搭前端框架、UI 界面
部署线上服务(云主机、域名)
技术选型
Django
学习路径
英文官方 handbook or video course for Django
产研构思步骤:
用户复制的信息,如何能够正确传入 API
- 格式化(去空行、去空格等)应该可以通过前端 JS 来实现,做网页的时候再处理
- 前端输入框需要限制用户复制进去的最大字数,暂定一万;但更理想的做法是,看目标用户所读新闻的长度
- 当前 API 选型的百度文心大模型,每次调用只能输入 1,000 字中文
- 将用户复制的文本,每超过 1,000 字截断一次保存下变量,输入 API 中
- 调研百度开放的另外一个模型精调 API 看输入上限是否能提高
- 不过,就算模型精调 API 也有个上限,也需要处理分段储存变量;不过如果上限足够高,可以在前端只做一次最大字数的性限制输入,然后全部传入 API