中文字幕av一区,蜜臀avwww国产天堂

圖片來自谷歌

DataGemma是首個將大型語言模型（LLM）與現(xiàn)實(shí)世界數(shù)據(jù)相結(jié)合的案例，通過這種方式，谷歌希望能夠減少AI在生成回答時的幻覺現(xiàn)象。目前，谷歌已經(jīng)在Hugging Face上公布了DataGemma模型的代碼和其他相關(guān)信息。

Data Commons是谷歌建立的開源知識圖譜，其數(shù)據(jù)來源包括聯(lián)合國、世界衛(wèi)生組織、美國疾病控制與預(yù)防中心（CDC）和美國人口普查局等值得信賴的組織。它涵蓋了健康、經(jīng)濟(jì)、人口和環(huán)境等多個主題，包含超過2400億個豐富的數(shù)據(jù)點(diǎn)，統(tǒng)計(jì)變量橫跨數(shù)萬種。Data Commons的用戶可以通過Google開發(fā)的AI自然語言界面進(jìn)行查詢，研究人員可以查詢例如非洲電力普及率增長最快的國家，或是收入與美國各郡糖尿病關(guān)系等問題。

谷歌通過兩種方法提升DataGemma的理解能力，使其更接近事實(shí)。第一種是RIG方法，當(dāng)用戶使用DataGemma生成回答時，它會從Data Commons中尋找統(tǒng)計(jì)數(shù)據(jù)并提供答案。第二種是RAG方法，當(dāng)用戶查詢DataGemma時，它會利用Gemini 1.5的長脈絡(luò)空間，先從Data Commons獲取上下文信息，然后生成回答，以此減少幻覺并提升回答質(zhì)量。

谷歌之前已經(jīng)利用開源的Gemma和Gemma 2作為基礎(chǔ)，通過RIG和RAG技術(shù)微調(diào)出了變種版本。這次則是以Gemma 2為基礎(chǔ)，再結(jié)合RIG和RAG方法，生成了兩個27B版本的DataGemma變種，并已在Hugging Face平臺公開。Google計(jì)劃繼續(xù)改進(jìn)這些方法，并將它們整合到開源的輕量模型Gemma以及Gemini家族模型中。初步將局部開放給少數(shù)人試用，然后逐步擴(kuò)大開放范圍。

——————

由DOIT傳媒主辦的2024中國數(shù)據(jù)與存儲峰會定于2024年11月8日在北京召開。本屆大會關(guān)注數(shù)據(jù)存儲與人工智能等前沿技術(shù)的最新突破和實(shí)際應(yīng)用，與來自全球的行業(yè)領(lǐng)袖、技術(shù)專家和企業(yè)代表將齊聚一堂，共同探討如何通過數(shù)據(jù)驅(qū)動的創(chuàng)新推動企業(yè)數(shù)字化轉(zhuǎn)型。

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門標(biāo)簽