研究人员发布了talkie,这是一个130亿参数的复古语言模型,完全基于1931年前的英文文本训练。该模型提供基础和指令调优两个版本,采用Apache 2.0许可证,可用于研究历史预测能力和无版权AI。这代表了完全基于版权过期数据训练的'纯素模型'的重要进展。
背景
大型语言模型通常使用现代网络数据训练,引发版权担忧。完全基于公共领域内容训练的模型提供了替代方案,同时支持历史知识表征的独特研究。
- 来源
- Simon Willison
- 发布时间
- 2026年4月28日 10:47
- 评分
- 7.0 / 10