推出talkie：源自1930年的130亿参数复古语言模型

Simon Willison2026年4月28日 10:477.0/10

研究人员发布了talkie，这是一个130亿参数的复古语言模型，完全基于1931年前的英文文本训练。该模型提供基础和指令调优两个版本，采用Apache 2.0许可证，可用于研究历史预测能力和无版权AI。这代表了完全基于版权过期数据训练的'纯素模型'的重要进展。

大型语言模型通常使用现代网络数据训练，引发版权担忧。完全基于公共领域内容训练的模型提供了替代方案，同时支持历史知识表征的独特研究。