维基媒体上线AI友好型数据库:开放120亿条数据向量化

维基百科母机构维基媒体基金会德国分部宣布推出“Wikidata Embedding Project”,将约1.2亿条开放数据向量化,方便大模型更高效地调用。虽然Wikidata本身已属机器可读的结构化数据,但生成式AI通常依赖自然语言,此次向量化可让AI更好理解语境并提升回答质量。维基媒体称,这不仅有助于提高AI输出的可靠性,也能让中小AI公司直接使用开放资源,减少对科技巨头的依赖。项目由Jina AI开发向量系统,IBM DataStax负责存储。此举正值埃隆·马斯克高调宣布其xAI团队将打造维基百科竞争品“Grokipedia”,试图以右翼视角改写知识体系。维基媒体强调,开放协作是确保AI知识来源中立与可靠的关键,面对AI普及,数据质量与偏见之争正变得愈发重要。
支持率>95%