Google推出 DataGemma:基於可信資料來源提高 AI 精準度,減少幻覺

Google推出 DataGemma:基於可信資料來源提高 AI 精準度,減少幻覺

Google公司基於Google資料共享(Data Commons)中的真實世界統計資料,推出了開放權重 Gemma 模型的新版本  DataGemma。

語言模型當前面臨的一大難題就是幻覺(Hallucinations),尤其是大型語言模型(LLMs)在處理數值或統計資料時,這一問題變得尤為棘手,因此精確性至關重要。

Google的 Data Commons 是一個儲存庫,彙集了來自聯合國和疾病控制與預防中心等可信組織收集的超過 2400 億個資料點。

通過利用這一龐大的統計資料集,基於 Gemini 的 DataGemma 能夠顯著提升模型精準性,確保其輸出基於真實可信的現實世界資訊。

Google推出 DataGemma:基於可信資料來源提高 AI 精準度,減少幻覺

DataGemma 方法的核心在於兩種關鍵技術:檢索交錯生成(RIG)和檢索增強生成(RAG)。這兩種方法通過在生成過程中將模型基於現實世界資料,從而減少幻覺現象。

RIG:

通過主動查詢可信來源,再生成回答的方式運作。在接收到提示詞之後,DataGemma 會識別查詢中的統計資料點,並從資料共享平台獲取準確資訊。

Google推出 DataGemma:基於可信資料來源提高 AI 精準度,減少幻覺

例如,若被問及“全球可再生能源的使用量是否有所增加?”,該模型會在回答中穿插即時統計資料,確保事實精準性。

RAG:

在生成回答之前,會從資料共享平台檢索相關資訊,進一步提升了回答的品質。借助其長上下文窗口(由 Gemini 1.5 Pro 實現),DataGemma 確保了回答的全面性,引入了表格和腳註以提供更深層次的上下文,從而減少了虛構內容的出現。

Google推出 DataGemma:基於可信資料來源提高 AI 精準度,減少幻覺

Google對 RIG 和 RAG 的研究尚處於初期階段,但初步成果令人鼓舞。通過將現實世界資料嵌入回覆中,DataGemma 模型在處理數值事實和統計查詢方面展現出顯著提升。研究團隊已發表論文詳述其方法,強調這些技術如何幫助 LLMs 判斷何時依賴外部資料與內部參數。

 

 

 

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則