最近除了chat类以外, 尝试性折腾了几个大模型的工具, 大概有了一些个人使用场景下的认识, 简单抛砖引玉一下.
目前主要用的, chat类, 主要利用的是其结合搜索引擎
一个常用的是 腾讯的元宝. 主要原因是这些kimi等串联了搜索引擎的gpt应用里, 腾讯这个对接了公众号, 一些高质量的文章比较多. 也有人有同样看法.
有三类内容,近乎是微信公众号独占的:
❶许多券商研究报告,通过公众号免费分享;
❷ 类似《中国基金报》等官方微信号,往往会免费放出自家的核心内容,甚至还有微信小编会进一步整合一些内容。
❸ 各类基金公司发布的投教类文章,其中也不乏深度文章。
知识库收集
目前来看, 一个关键点在于知识库信息的收集.
完全依赖搜索引擎在现在不太可靠了. 比如reddit/知乎不再应对搜索引擎的爬虫, 打包售卖数据内容. 即, 数据已经开始作为赢利点使用了.
其次, 诸多网站均关闭了非登录用户的访问权限, 比如知乎,github, 均需要个人注册的token方可查询到内容.
目前一个个人想法, 依托于rss订阅(目前主要是rsshub自定义网页抓取, 可能后续AI加持的follow), 除了订阅信息流外, 均需要具有持久化保存到知识库中能力.
这样, 避免像以前订阅的滴滴云博客等直接不再维护 导致的信息流丢失的情况.
zotero支持feed订阅指定网站信息. 但是保存内容依旧需要人工.atom本身存储为markdown格式没啥问题
此时zotero中就能拥有完整内容了.
最好中间的workflow能经过一次AI处理, 输出一个订阅的总结.(这个程序可以接受单独部署, 然后通过邮件形式发送之类的)
实战
基于东方财富/公司财报/IDC分析等材料, 使大模型知识库提炼信息, 给出总结.
目前主要尝试过了dify/ragflow/auto-rag, 这几个知识库+低代码串联应用. 全文搜索能力还行. 但是响应速度, 可能是我的设备