圖片來自谷歌

DataGemma是首個將大型語言模型(LLM)與現實世界數據相結合的案例,通過這種方式,谷歌希望能夠減少AI在生成回答時的幻覺現象。目前,谷歌已經在Hugging Face上公布了DataGemma模型的代碼和其他相關信息。

Data Commons是谷歌建立的開源知識圖譜,其數據來源包括聯合國、世界衛(wèi)生組織、美國疾病控制與預防中心(CDC)和美國人口普查局等值得信賴的組織。它涵蓋了健康、經濟、人口和環(huán)境等多個主題,包含超過2400億個豐富的數據點,統(tǒng)計變量橫跨數萬種。Data Commons的用戶可以通過Google開發(fā)的AI自然語言界面進行查詢,研究人員可以查詢例如非洲電力普及率增長最快的國家,或是收入與美國各郡糖尿病關系等問題。

谷歌通過兩種方法提升DataGemma的理解能力,使其更接近事實。第一種是RIG方法,當用戶使用DataGemma生成回答時,它會從Data Commons中尋找統(tǒng)計數據并提供答案。第二種是RAG方法,當用戶查詢DataGemma時,它會利用Gemini 1.5的長脈絡空間,先從Data Commons獲取上下文信息,然后生成回答,以此減少幻覺并提升回答質量。

谷歌之前已經利用開源的Gemma和Gemma 2作為基礎,通過RIG和RAG技術微調出了變種版本。這次則是以Gemma 2為基礎,再結合RIG和RAG方法,生成了兩個27B版本的DataGemma變種,并已在Hugging Face平臺公開。Google計劃繼續(xù)改進這些方法,并將它們整合到開源的輕量模型Gemma以及Gemini家族模型中。初步將局部開放給少數人試用,然后逐步擴大開放范圍。

——————

由DOIT傳媒主辦的2024中國數據與存儲峰會定于2024年11月8日在北京召開。本屆大會關注數據存儲與人工智能等前沿技術的最新突破和實際應用,與來自全球的行業(yè)領袖、技術專家和企業(yè)代表將齊聚一堂,共同探討如何通過數據驅動的創(chuàng)新推動企業(yè)數字化轉型。

分享到

崔歡歡

相關推薦