對于本案例中客戶在高效數(shù)據(jù)處理上的需求,引擎可提供:
1.多數(shù)據(jù)源智能適配 – 包含內(nèi)外部財報、研報、公告、資訊、產(chǎn)品等數(shù)據(jù)在內(nèi),引擎可快速接入多種形式的數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)及文檔、表格、圖片、音頻等非結(jié)構(gòu)化數(shù)據(jù))。
2.搜索意圖推薦 – 引擎可基于豐富的NLP算法在索引構(gòu)建過程中對數(shù)據(jù)進行深度知識挖掘分析,提供更快速的查詢檢索。
3.搜索功能快速構(gòu)建 – 引擎的搜索API模塊允許用戶通過簡單的后臺配置快速構(gòu)建搜索服務(wù)功能,并配合NLP算法理解用戶檢索語義和意圖,支持口語化問答交互。此外,搜索服務(wù)于可對接口進行限流和鑒權(quán)實現(xiàn)安全性保障。
4.監(jiān)控 – 系統(tǒng)全流程監(jiān)控,幫助用戶快速定位問題。
5.反饋日志 – 用戶反饋日志收集持續(xù)優(yōu)化搜索結(jié)果。
二、結(jié)合NLP與知識圖譜搭建數(shù)據(jù)處理管道,實現(xiàn)智能搜索
為構(gòu)建高效、精準的搜索服務(wù),在數(shù)據(jù)流程中的離線處理部分,虎博科技基于自身在NLP領(lǐng)域的技術(shù)積累,通過意圖識別模型、深度學(xué)習(xí)語義模型以及行業(yè)知識圖譜和條件推理模型等技術(shù)優(yōu)勢構(gòu)建數(shù)據(jù)處理管道,從而提升搜索效果。
意圖識別模型–用于準確識別用戶搜索意圖,進而反饋更加符合需求的結(jié)果。模型可對query進行分類,識別出SQL類query 和匹配類query。若識別結(jié)果為SQL類query,系統(tǒng)將直接采用文本分類模型進后續(xù)處理;若識別結(jié)果為匹配類query則使用深度排序模型。
深度學(xué)習(xí)排序模型–用于查詢匹配類query與文檔的相關(guān)性。模型采用對離散特征做Embedding的方法,借鑒了FNN的思想,然后采用Wide&Deep模型同時訓(xùn)練一個Wide側(cè)的線性模型和一個Deep側(cè)的神經(jīng)網(wǎng)絡(luò),Wide部分提供記憶能力,關(guān)注用戶有過的歷史行為,Deep部分則提供泛化能力,關(guān)注一些沒有歷史行為的Item。
行業(yè)知識圖譜和條件推理模型–用于將自然語言問題提煉為查詢條件在圖譜上推理檢索(NL2SQL)。具體地,采用了一種基于草圖的方法,其中草圖包含一個依賴圖,因此可以通過僅考慮其依賴的先前預(yù)測來進行下一個預(yù)測。預(yù)測列時采用sigmoid函數(shù)來計算每個列出現(xiàn)的概率,并采用列注意力來提高預(yù)測能力,并使用序列到序列的進行預(yù)測取值,從自然語言中提取查詢條件。
此外,針對小方App所提供的證券信息、理財?shù)葍?nèi)容服務(wù),虎博科技基于大量的證券方面的研報、財報,在通用的語言模型(例如bert、albert)上,采用持續(xù)學(xué)習(xí)的方法訓(xùn)練了行業(yè)語言模型,全面的運用于后續(xù)的實體識別、關(guān)系抽取、情感分析模型等。而對于部分英文研究材料,則基于大量的證券雙語平行語料訓(xùn)練的翻譯系統(tǒng),滿足了翻譯需求,并通過大量的證券語料以及標注,結(jié)合實體識別和關(guān)系抽取輔助,構(gòu)建完善的證券垂直領(lǐng)域知識圖譜,為下游的檢索任務(wù)提供支持。
三、應(yīng)用效果
引入虎博智能搜索引擎后,方正證券旗下小方App信息服務(wù)效率至少提升50%。通過將原來各個二級頁面的搜索框,以及不同的功能整合成為首頁搜索框,形成統(tǒng)一的搜索入口,實現(xiàn)「股票」「理財」「投顧」「資訊」「發(fā)現(xiàn)」等全場景信息的一站式服務(wù)。
理財產(chǎn)品智能搜索可基于虎博科技針對證券行業(yè)的自然語言理解模型及知識圖譜,對產(chǎn)品進行多屬性智能關(guān)聯(lián),連接用戶和產(chǎn)品,提升產(chǎn)品的轉(zhuǎn)化率;研報資訊精準搜索可對于研報、資訊、公告以及其他非結(jié)構(gòu)化數(shù)據(jù)庫中內(nèi)容提供深度語義搜索,快速提供高價值信息;投顧信息搜索則通過綜合展示平臺,讓用戶能夠方便的聯(lián)系投顧、認知投顧、簽約投顧,促進業(yè)務(wù)變現(xiàn),且縮短了用戶查找信息的路徑。