我想演講的是《企業(yè)場景中大語言模型的應(yīng)用實踐探索》。分幾部分來探討:企業(yè)數(shù)據(jù)的演進、大語言模型相關(guān)概念、大語言模型企業(yè)場景應(yīng)用的問題、Fabarta產(chǎn)品和解決方案、大語言模型企業(yè)場景應(yīng)用案例。

這張圖中總結(jié)過去幾十年企業(yè)數(shù)據(jù)相關(guān)的技術(shù),最早技術(shù)出現(xiàn)在文件系統(tǒng),60年代開始出現(xiàn)數(shù)據(jù)庫,70年代出現(xiàn)關(guān)系數(shù)據(jù)庫,80年代出現(xiàn)數(shù)據(jù)倉庫的概念,90年代出現(xiàn)個人電腦的時代,2000年是互聯(lián)網(wǎng)火爆,所以當(dāng)時出現(xiàn)云計算和大數(shù)據(jù)。2010年移動互聯(lián)網(wǎng)的興起,當(dāng)時也出現(xiàn)數(shù)據(jù)服務(wù)的概念和云原生和分布式流處理,這些都非常的熱門。2020年之后是分布式圖和向量,應(yīng)該是比較熱的方向。

這張圖描述今后幾年數(shù)據(jù)發(fā)展的趨勢,來源于IDC預(yù)測。藍色表示結(jié)構(gòu)化的數(shù)據(jù)總量,單位是EB,紫色是非結(jié)構(gòu)化數(shù)據(jù)的總量,所以從這個圖中可以看到今后幾年全球數(shù)據(jù)總量年增長率在21%左右,這個遠超過GDP的總量。

在結(jié)構(gòu)的總量中,90%都是非結(jié)構(gòu)化的數(shù)據(jù),比如說文檔、圖片、語音、視頻等等。在這里面去年中國數(shù)據(jù)產(chǎn)量,大概在全球居于第二位,而且預(yù)測相關(guān)的增長率與全球增長率也在20%多。對于企業(yè)來說,我們現(xiàn)在有海量而且多模態(tài)數(shù)據(jù)的需求。

我們再看目前人工智能相關(guān)的概念,這張圖中是人工智能將近70年的發(fā)展歷程。1956年人工智能的概念被提出后,當(dāng)時迅速走向一個高峰,大家認為技術(shù)能夠解決所有人類的問題,其實也出現(xiàn)多層神經(jīng)網(wǎng)絡(luò)的架構(gòu)。但是過了十幾年發(fā)現(xiàn),計算機、人工智能的能力非常弱,可能只能解決很簡單的問題,所以當(dāng)時人工智能遭遇到第一次的寒冬。

80年代確實能夠幫助解決一些問題,包括日本推出一個計劃,相當(dāng)計算像人一樣推理計算,能夠解決生活的很多問題。但是過了幾年之后,人工智能的進展還是非常的緩慢,包括五代機后來計劃也是失敗,所以人工智能到第二次的寒冬。80年代如果有人要去讀人工智能或者神經(jīng)網(wǎng)絡(luò),都會被人家笑話的,覺得這條路遙遙無期,或者沒有什么前途。

后來2000年之后隨著互聯(lián)網(wǎng)的發(fā)展,包括2016年阿爾法狗戰(zhàn)勝人類圍棋冠軍,特別是去年GPT的出現(xiàn),使得人工智能大模型達到前所未有的高峰,為什么會出現(xiàn)這種情況?

一是數(shù)據(jù)出現(xiàn)爆發(fā)式的增長,互聯(lián)網(wǎng)和物聯(lián)網(wǎng)高速發(fā)展,互聯(lián)網(wǎng)積累大量的數(shù)據(jù)。

二是算力的增長,我們采用GPU高度并行的架構(gòu)。

三是算法上的突破,包括深度學(xué)習(xí)算法的突破,所以2019年研究深度學(xué)習(xí)算法的專家獲得當(dāng)時的圖靈獎。

我們覺得從數(shù)據(jù)到算力和算法的高速增長,所以導(dǎo)致這十幾年來人工智能的高速發(fā)展。大語言模型是自回歸的深度學(xué)習(xí)算法,經(jīng)過海量數(shù)據(jù)訓(xùn)練能夠識別和生成文本和內(nèi)容。它基本的原理就是根據(jù)前面竄入到后面的token,它有重要的屬性是規(guī)模法則,它有幾種說法,這是相對比較認可的說法,它認為大語言模型的能力表現(xiàn)是關(guān)于它模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)集規(guī)模的可預(yù)測函數(shù),而且沒有上限的限制。

通俗來講,模型的參數(shù)規(guī)模越大,那么它需要訓(xùn)練的數(shù)據(jù)集數(shù)量規(guī)模也就會越大,而且這樣會導(dǎo)致模型的表現(xiàn)就會更好。當(dāng)模型規(guī)模超過一定的閾值就會出現(xiàn)智能涌現(xiàn)的現(xiàn)象,有一些小模型中沒有大模型中突然出現(xiàn),所以右邊的圖是這幾年參數(shù)模型規(guī)模的情況,所以在去年是1000多億,GPT4大概是1萬多億,明年據(jù)說到10萬億的規(guī)模。

它的訓(xùn)練和推理一般會分為三個階段,預(yù)訓(xùn)練是用海量的數(shù)據(jù),大量的GPU運行四五個月得到基礎(chǔ)的模型,以及用微調(diào)使用人工標注的高質(zhì)量問答進行訓(xùn)練。人類反饋的強化學(xué)習(xí)用對模型的很多問答進行打分聲稱獎勵的模型,用強化學(xué)習(xí)方式微調(diào)大模型,最后得到自己的模型。

推理階段吞吐量是關(guān)鍵的指標,可以用優(yōu)化的手段進行優(yōu)化,一個是智能體希望智能系統(tǒng)自主的使用工具完成人交給他的任務(wù),以及多模態(tài)理解和生成圖片、視頻、語音的內(nèi)容,這不僅僅是文生圖,也要圖生文。

AGI通用人工智能,把它定義為絕大多數(shù)有經(jīng)濟價值的任務(wù)上能夠超越人類的高度自治系統(tǒng),比如說開車就有經(jīng)濟價值,而且要在絕大多數(shù)上超越人類。AGI是人類最終極的目標之一,而且我們一直覺得是遙遙無期,根本不知道到底往哪一個方向去做,這兩年大模型突破能使得人們發(fā)現(xiàn)好像這是一條通往AGI的一條路,所以有些人可能說過十年或者二十年。而且一旦這個任務(wù)達到這個狀態(tài)的話,可能會對人類的倫理產(chǎn)生根本性的動搖,比如說人類并不是地球上最聰明的物種。

我們碰到的實際問題,包括大模型訓(xùn)練當(dāng)中達到的截至到今年的四月份,以及模型回答問題的時候會胡編亂造,如果像不懂的人會被它欺騙。

不可解釋性,模型中的參數(shù)太多,無法從數(shù)學(xué)上對它進行證明。比如哪一部分的神經(jīng)原在起著哪部分的作用,以及數(shù)學(xué)邏輯推理能力弱。

我們是一家AI基礎(chǔ)設(shè)施公司,通過探索和連接數(shù)據(jù)資源,助力企業(yè)實現(xiàn)智能驅(qū)動創(chuàng)新。產(chǎn)品矩陣稱為是一體兩翼的,底下是多模態(tài)的智能引擎,包括圖的引擎、圖數(shù)引擎和向量引擎,以及AI模型的推理加速和訓(xùn)練,左邊是多模態(tài)的數(shù)據(jù)平臺,通過數(shù)據(jù)治理和盤點的功能,使得傳統(tǒng)的數(shù)據(jù)治理向智能的數(shù)據(jù)資產(chǎn)管理邁進。

右邊是企業(yè)的智能分析平臺,包括低代碼分析平臺,把低代碼的方式暴露給客戶應(yīng)用端,以及大模型工作平臺進行調(diào)優(yōu)。

整體上來說,左邊編制品牌主要是把數(shù)據(jù)進入到引擎當(dāng)中去,由引擎進行推理。右邊是以智能分析平臺,我們也是一個創(chuàng)業(yè)公司,也是純自主研發(fā)的產(chǎn)品系統(tǒng),我們也和國產(chǎn)進行綁定。

剛才說的大模型,在產(chǎn)品解決方案上做了一些解決,當(dāng)然無法從根據(jù)上解決問題,我們通過把圖中的確定知識補充和校大模型,能夠做約束,比如說數(shù)據(jù)時效的問題,把本地支持裝數(shù)據(jù)庫當(dāng)中,讓大模型從本地支持中產(chǎn)生價值,利用圖的能力做更好的召回、校驗、補充。

幾個實際的應(yīng)用案例。制造業(yè)方面項目背景是某一個大型的信息制造企業(yè)的管理系統(tǒng),核心場景是生產(chǎn)設(shè)備報修工單的流轉(zhuǎn),以前在生產(chǎn)線上的設(shè)備一旦壞了,工人要打電話或者發(fā)短信給服務(wù)中心,說這個設(shè)備怎么壞了?維修的主管就會分派維修工人過去察看分析,解決之后這個問題就解決了。

功能報帳非常的煩瑣,維修人員的經(jīng)驗和故障匹配很困難,以及故障的現(xiàn)象無法判定,維修人員經(jīng)驗無法提供支持。我們的解決方案通過大語言模型,開發(fā)一個手機的APP,功能把語言的方式匯報故障,我們通過大語言的模型理解語言數(shù)據(jù),引導(dǎo)用戶一步步進行信息的輸入,形成一個結(jié)構(gòu)化的工單,作為資產(chǎn)沉淀下來。

根據(jù)工單的信息推薦相應(yīng)的維修工,以及相應(yīng)操作的流程。當(dāng)維修好了之后,他的維修工可以通過語音的方式把維修的總結(jié)發(fā)送過來,通過大語言模型進行結(jié)構(gòu)化,并且形成新的維修標準操作流程。對于設(shè)備工單進行建模和分析異常,對今后的設(shè)備整改提出建議。

經(jīng)過我們用了這些方案之后,人工填寫效率提升70%,減少人工的成本,通過自動對話的系統(tǒng)使維修工實時得到我們的服務(wù)。

第二個案例是金融業(yè),這個客戶是合規(guī)部門,合規(guī)部門其實是非常核心的部分,他們的員工需要學(xué)習(xí)上萬個法規(guī),比如說刑法、商業(yè)銀行法,他們自己銀行的內(nèi)部也會制定規(guī)則,他們需要把內(nèi)規(guī)和外規(guī)對立匹配,避免有不一致的情況。

希望能夠在關(guān)聯(lián)到行政處罰和司法判定,我們的解決方案是通過大語言模型構(gòu)建生成相關(guān)法規(guī)標簽,以標簽為中心構(gòu)建法規(guī)知識圖譜,存在圖數(shù)據(jù)庫當(dāng)中。把法規(guī)的條款,存在向量的數(shù)據(jù)庫當(dāng)中,我們使用多種的算法,結(jié)合圖中關(guān)系構(gòu)建精準合規(guī)的領(lǐng)導(dǎo)。

對內(nèi)外的匹配,通過向量的比較以及大的語言模型,來很好的進行內(nèi)外部的匹配,經(jīng)過我們的解決方案,相應(yīng)合規(guī)問答的準確性比以前老的至少提升80%以上,員工積極性也顯著的提升,同時減少銀行合規(guī)的風(fēng)險。

第三個案例IT業(yè)案例,以我們自己作為一個背景,員工需要花大量的時間閱讀自己內(nèi)部文檔,所以我們希望有一個智能系統(tǒng)能夠檢索自己的內(nèi)容,而且給員工提供回答,我們的解決方案首先把私有的數(shù)據(jù),文檔的關(guān)系圖和內(nèi)部的組織架構(gòu)圖轉(zhuǎn)換并且存儲數(shù)據(jù)庫,把技術(shù)文檔存入到向量數(shù)據(jù)庫,把代碼也要相應(yīng)的提交也存儲向量庫,機制能夠自主的去查詢圖和向量數(shù)據(jù)庫,這里面有好幾個向量庫,所以你要自主的生成查詢計劃去查詢。

亮點是支持多種格式,通過這一套系統(tǒng)把員工技術(shù)能力有很好的提升,員工的滿意度也會提高,我們把它叫做Arc42企業(yè)智能助手,我想演示一下和向量的融合能夠避免一些問題,比如說問一個問題2.0數(shù)據(jù)庫是否有切換的功能?它的回答是在當(dāng)中做單純的向量召回會回答說是的,我們支持相關(guān)的功能。為什么呢?代碼的提交當(dāng)中有關(guān)鍵字,把這個提交給大模型產(chǎn)生幻覺。

這里是查詢計劃,首先判斷是宏觀查詢,從代碼庫當(dāng)中照相館的代碼提交。也同文檔庫當(dāng)中去找區(qū)塊鏈相關(guān)的文檔,而且確實也發(fā)現(xiàn)了,發(fā)現(xiàn)寫作文檔的人是銷售部門的員工,我們再把這兩個結(jié)果匯總一下,得出來一個結(jié)論說在研發(fā)部門中沒有區(qū)塊鏈相關(guān)的設(shè)計文檔,雖然有區(qū)塊鏈相關(guān)的代碼提交。我們把這個信息提交給大模型,會說對不起我們并沒有區(qū)塊鏈的模型,這里面進行圖文向量融合查詢,得到避免大模型幻覺。

總結(jié)一下,大語言模型是顛覆性技術(shù),正在快速發(fā)展,在企業(yè)場景中有極大的應(yīng)用空間。Fabarta公司提供圖和向量融合的AI基礎(chǔ)設(shè)施,幫助企業(yè)更好的實現(xiàn)大語言模型的應(yīng)用。

分享到

nina

相關(guān)推薦