Google 推出了 DataGemma,这是基于真实世界数据的两个新 Gemma模型版本,旨在减少 AI 生成中的“幻觉”问题。
DataGemma 通过利用 Google Data Commons 中超过 2400 亿个来自可信来源的统计数据,显著提高了模型在处理数值和统计数据时的准确性。
DataGemma 采用了两种关键技术:检索-交替生成 (RIG) 和检索增强生成 (RAG)。RIG 在生成回答前主动从可信数据源中检索信息,确保模型输出的内容准确无误;RAG 则进一步通过在生成回答前引入相关数据,使模型能够提供更加全面且有依据的回答。
初步测试结果显示,使用 RIG 技术后,模型的事实准确率从基础线的 5-17% 提升至约 58%。
而 RAG 技术在引用具体数值时,准确率达到了 98-99%。
然而,两个方法也面临挑战,如数据覆盖不足以及在推断过程中出现错误。
尽管如此,DataGemma 展示出极大的潜力,通过将 AI 生成的内容与真实世界数据相结合,推动了更可靠的 AI 系统的发展。Google 计划继续扩展模型的训练数据集,并改进数据处理能力,以进一步提升模型的准确性和实用性。这一项目虽然还在早期阶段,但有望在医疗、教育、政策制定等领域产生深远影响。
-=||=-收藏赞 (1)
评论前必须登录!
立即登录 注册