《灣區(qū)科技評論》:請介紹一下YashanDB的研發(fā)經(jīng)歷?數(shù)據(jù)庫的理論如何進行工程實現(xiàn),如何把理論應用在產業(yè)需求上?其中的挑戰(zhàn)是什么?
陳志標:理論落地是一個業(yè)界難題,研究和工程之間存在鴻溝,當前理論到市場落地率不到10%,在這里也分享下我們的一些經(jīng)驗:第一,研究與開發(fā)團隊緊密結合、密切討論,深度理解原創(chuàng)理論、并完成原型驗證。例如,針對有界理論的工程落地,基礎研究團隊和產品研發(fā)團隊前前后后討論了將近兩個多月,不斷地發(fā)現(xiàn)問題、解決問題,經(jīng)過很多嘗試后最終實現(xiàn)了它的驗證。第二是系統(tǒng)工程能力,這里包含開發(fā)標準的制定執(zhí)行、代碼產品質量的全面看護等等。如果說原型驗證是一個點,那么工程實現(xiàn)就是一個面,需要考慮方方面面的事情,包括易用性、可維護性等,維度更多、更復雜,這也是從理論走向市場落地的一大挑戰(zhàn)。我們采用系統(tǒng)化、流水線式質量保障方法為版本質量保駕護航,具備了從產品定義、代碼實現(xiàn)到質量保障端到端的工程實現(xiàn)能力。第三,是對客戶的全方位的支持。這就需要多從用戶角度思考問題,我們通過與各行各業(yè)客戶的深度交流,更加了解他們的實際需求和使用習慣,在版本迭代中,不斷加強對主流數(shù)據(jù)庫的兼容能力,幫助用戶平滑遷移,提供從安裝部署、一鍵遷移、智能運維到應用開發(fā)的全生命周期配套工具,助力用戶降本增效。
歷經(jīng)數(shù)年的潛心研發(fā),YashanDB在2022年正式發(fā)布了首個版本正式,并確立每年發(fā)布兩個大版本的節(jié)奏。至去年,我們已針對不同業(yè)務場景,構建了基于全自研內核的完善產品體系,涵蓋1個自主內核、單機/主備數(shù)據(jù)庫、共享集群數(shù)據(jù)庫、分布式實時數(shù)倉、空間數(shù)據(jù)庫四大產品,以及遷移平臺、運維平臺、開發(fā)平臺三大工具。
在實際場景中推廣
《灣區(qū)科技評論》:目前崖山等產品的市場推廣狀況如何?客戶有哪些方面的反饋?還會有哪些方面的挑戰(zhàn)?
陳志標:目前,YashanDB已在多個行業(yè)及場景的核心系統(tǒng)中廣泛應用,如政務、金融、能源、交通和智能制造等關鍵領域。YashanDB在平滑遷移、性能表現(xiàn)及穩(wěn)定性方面均展現(xiàn)出了顯著優(yōu)勢,獲得了客戶的廣泛認可與高度評價,助力用戶在眾多核心業(yè)務系統(tǒng)中實現(xiàn)了底層技術的自主可控。
眾所周知,金融業(yè)是數(shù)據(jù)庫的最大客戶,占據(jù)了市場五分之一的市場份額,且使用要求最高、應用最深。某金融客戶的業(yè)務系統(tǒng)已在Oracle上穩(wěn)定運行多年,希望通過一款國產數(shù)據(jù)庫產品進行“改造”,但需要做到減少業(yè)務重寫、系統(tǒng)平穩(wěn)切換。“改造”工作將面臨巨大的挑戰(zhàn),難度在于其業(yè)務邏輯主要通過Oracle數(shù)據(jù)庫里大量內置的高級特性來實現(xiàn),代碼量十分龐大,對此,我們通過我們的崖山遷移平臺YMP,自動化地對系統(tǒng)進行兼容性評估、數(shù)據(jù)遷移、一致性校驗等工作,最終不到3人周即完成11萬行代碼的平滑遷移,大大縮短了客戶原本數(shù)月的交付預期,創(chuàng)造了數(shù)據(jù)庫國產改造新速度。
遷移能力之外,性能表現(xiàn)更是驗證數(shù)據(jù)庫產品能力的核心指標。對此,客戶又提出了在同等硬件配置下做一個“性能PK”。與Oracle對比,在單業(yè)務流程中崖山數(shù)據(jù)庫響應時間較Oracle快50%,大大提升業(yè)務處理效率,且并發(fā)吞吐量也是Oracle的1.3-2.4倍,意味著相同時間可以處理數(shù)倍業(yè)務請求,擴展了原有業(yè)務的處理上限。
對此YashanDB交出了一份滿意的答卷,在替換原有的數(shù)據(jù)庫系統(tǒng)后,YashanDB不僅保障了遷移過程的平滑安全,更在多個關鍵指標上實現(xiàn)了性能的提升,是1:1平替的絕佳選擇。
無疑,作為新推出的產品,在市場推廣過程中我們面臨著諸多挑戰(zhàn)。尤其是在起步階段,客戶往往擔心新產品的性能不穩(wěn)定、安全性不足或未來的支持不夠。因此在PoC驗證階段我們向客戶提供了高品質的產品和服務,在性能、安全性和用戶體驗等方面都能達到或超越了客戶的期望。隨著客戶信任的逐步建立,我們也獲得了更多的合作機會和市場認可,慢慢打開了市場局面。
《灣區(qū)科技評論》:國產自研的數(shù)據(jù)庫,如何滿足用戶在數(shù)據(jù)庫遷移時的需求?如何建立自己的服務生態(tài)?
陳志標:服務是數(shù)據(jù)庫廠商的核心競爭力之一,我們始終以用戶為中心,首先,構建了標準流程與專業(yè)工具體系,根據(jù)用戶問題的嚴重級別,對問題進行分級管理和專人響應;其次,我們與全國各地的服務伙伴建立了深度合作關系,共同打造一個全國性的服務網(wǎng)絡是YashanDB從1走向100的關鍵。
與此同時,數(shù)據(jù)庫是典型的生態(tài)型產業(yè)。如何用好數(shù)據(jù)庫、構建數(shù)據(jù)庫生態(tài)以及培養(yǎng)人才等成為業(yè)界廣泛關注的焦點。我們與上下游軟硬件廠商“強強聯(lián)合”,兼容適配了超百家芯片、操作系統(tǒng)、中間件等主流軟硬件生態(tài),與深智城、長亮、金蝶、超圖等生態(tài)伙伴推出企業(yè)級聯(lián)合解決方案,打造互助共贏的生態(tài)格局。在人才生態(tài)方面,我們推出了數(shù)據(jù)庫人才培養(yǎng)和認證體系,現(xiàn)已覆蓋全國20余個省份、數(shù)千名用戶,持續(xù)為行業(yè)培養(yǎng)和輸送高質量的數(shù)據(jù)庫人才。
《灣區(qū)科技評論》:如何考慮進一步完善產品的商業(yè)模式?目前市場和服務團隊的搭建情況如何?
陳志標:隨著客戶群體從深圳逐步擴展至全國各地,包括華東、華北等地區(qū),我們的市場和服務團隊將立足大灣區(qū),積極布局全國網(wǎng)絡。一是加強原廠的市場與服務能力,為直接客戶提高更有市場競爭力的產品與解決方案;其次是與全國各地的渠道、服務伙伴建立深度合作關系,并建立本地的辦事處,配備當?shù)劁N售與服務渠道的骨干人員。
未來,我們基于行業(yè)應用的實際需求,持續(xù)提升產品的硬核能力、持續(xù)完善配套工具的支撐能力、持續(xù)加強數(shù)據(jù)庫運維和服務能力,并深耕場景,系統(tǒng)打造場景規(guī)?;瘡椭颇芰?。
《灣區(qū)科技評論》:未來YashanDB研發(fā)的重點方向是什么?是更多的從理論出發(fā),還是從目前客戶關注的需求出發(fā)?
陳志標:產業(yè)持續(xù)發(fā)展的關鍵是在核心技術上的持續(xù)投入,并一定要落到產品里去,被市場廣泛使用。YashanDB仍需要持續(xù)投入核心技術打造,做到技術可控、技術領先。面向未來,YashanDB在真正實現(xiàn)1:1平替能力之外,也將積極探索新的方向,如云原生、多模態(tài)和AI使能等,以提供更可用、好用、易用的數(shù)據(jù)庫產品。
尤其隨著AI的快速發(fā)展,我們認為智能化機遇將會給數(shù)據(jù)管理帶來重大變革。一方面是DB for AI,包括前段時間大火的向量數(shù)據(jù)庫;另一方面則是AI for DB,例如利用機器學習模型優(yōu)化查詢,以及實現(xiàn)SQL語言的自動生成,幫助用戶減少交互工作。值得關注的是,跨模計算已成為AI時代的下一個重要考驗,針對多模數(shù)據(jù)間模式轉換的實時性難題,我們采用機器學習與邏輯推理相結合的方式,在理論方面取得了突破,目前正在探索落地這一技術,這將對傳統(tǒng)跨模計算技術產生顛覆性突破。
未來,我們將持續(xù)探索更多創(chuàng)新技術的可行性和落地方案,拓寬數(shù)據(jù)庫應用的廣度和深度,為更多企業(yè)的數(shù)字化轉型提供有力支撐。
國產數(shù)據(jù)庫突破之路
《灣區(qū)科技評論》:近幾年,國內整體數(shù)據(jù)庫的發(fā)展情況如何?有哪些重要的瓶頸需要突破?
陳志標:從商業(yè)角度來看,國內的數(shù)據(jù)庫生態(tài)圈是繁榮的,據(jù)不完全統(tǒng)計國內數(shù)據(jù)庫產品數(shù)量有200多款,但反而觀之,繁榮的背后也存在著瓶頸制約:首先,在高端核心系統(tǒng)場景中,目前仍以國外數(shù)據(jù)庫為主流,主要原因在于國產數(shù)據(jù)庫的內核性能及高可用保障能力不足,無法做到1:1平替;此外,核心系統(tǒng)對于業(yè)務連續(xù)性的要求十分高,目前長期依賴于Oracle的共享集群產品,國產數(shù)據(jù)庫尚未在高端領域形成成熟且穩(wěn)定的高可用解決方案。
更為重要的是,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、AI等技術的飛速發(fā)展,數(shù)據(jù)呈現(xiàn)了大規(guī)模、多樣性、極速增長的態(tài)勢,對數(shù)據(jù)處理的新鮮度和融合性提出了更高的要求,例如中國數(shù)據(jù)量規(guī)模2027年預計達到76.6ZB,相當于足以存儲約38萬億部2小時的高清電影,基于傳統(tǒng)計算模式開發(fā)的產品難以應對龐大的計算體量。新應用場景是國產數(shù)據(jù)庫需要重點關注和長期投入的領域,更是實現(xiàn)國際引領超越的關鍵。
《灣區(qū)科技評論》:能否介紹下YashanDB以自主可控的大數(shù)據(jù)技術破解關鍵領域“卡脖子”方面的優(yōu)勢是什么?
陳志標:數(shù)據(jù)庫內核就像汽車發(fā)動機,承擔著“心臟”的作用,決定著系統(tǒng)的性能和穩(wěn)定性。只有從源頭解決內核“根技術”,打造核心技術和產品驅動型基礎軟件,才能根本解決“卡脖子”問題。
崖山數(shù)據(jù)庫系統(tǒng)的產品優(yōu)勢,正是來源于研發(fā)團隊在內核方面的創(chuàng)新與突破。崖山數(shù)據(jù)庫系統(tǒng)YashanDB的內核代碼均為自主編寫,選擇從零構建第一行代碼,經(jīng)權威機構測試,內核代碼自主率100%。得益于自研的技術路線,一方面能夠不斷引入新理論、新算法,在技術上開展更多的技術創(chuàng)新以及工程實踐,實現(xiàn)技術引領,例如,我們結合多核并行計算,原創(chuàng)性地采用細粒度多版本并發(fā)管理機制、自適應異步事務調度方法等,使得單機內核性能方面實現(xiàn)突破,基準測試TPC-C下是國際主流商業(yè)數(shù)據(jù)庫的1.3倍;另一方面,由于對底層機制和核心技術的完全掌控,可以快速響應客戶不斷變化的需求。
在從根本上解決卡脖子這一難題之外,針對共享集群——這一長期為國外廠商所壟斷的“制高點”技術,我們經(jīng)過原型驗證和多次迭代,在去年成功推出共享集群產品,打破技術壟斷,在高效處理的數(shù)據(jù)規(guī)模、事務處理吞吐量和高可用能力等關鍵指標實現(xiàn)與國際標桿Oracle并跑并邁向領跑;在高可用方面,YashanDB共享集群的RPO(數(shù)據(jù)丟失量)為 0,能夠確保故障切換不丟數(shù)據(jù),故障恢復時間 RTO 小于 20 秒;同時,具備透明多寫的能力,替換過程業(yè)務不中斷、上層應用無改造,完全滿足核心系統(tǒng)對高可用的要求。當前產品也已經(jīng)應用在金融、運營商等國計民生領域中,有效降低“斷供”風險,真正實現(xiàn)高端應用場景1:1平替。
助力解決國家關鍵領域“卡脖子”難題,需要在數(shù)據(jù)處理領域提供具備“根技術”能力,且真正提供高端應用場景1:1平替的解決方案。
《灣區(qū)科技評論》:在發(fā)展基礎軟件方面,企業(yè)、高校、政府分別扮演著什么樣的角色?如何共同推動這一領域的發(fā)展?
陳志標:高校之優(yōu)勢集中體現(xiàn)在理論創(chuàng)新及人才培育。相對而言,企業(yè)端則更側重于對接并拓展多元化的應用場景,從而能夠更為迅速地推動理論研究成果向實際應用轉化。在此過程中,政府扮演著產業(yè)布局規(guī)劃者的角色,并提供全面的政策扶持,以促進產業(yè)的穩(wěn)健發(fā)展。
深算院作為新型科研機構,致力于打破一直以來存在的理論研究與工程轉化之間的鴻溝。在理論創(chuàng)新及人才培育方面,深算院培養(yǎng)了一批高端的數(shù)據(jù)庫理論和工程人才,為國產數(shù)據(jù)庫長遠發(fā)展厚植一方沃土,同時與多所高校合作,將自身積累多年的理論與工程經(jīng)驗對外輸出;在場景和應用落地方面,秉承“理論和系統(tǒng)并重”的初衷,我們打通科研成果“最后一公里”,基于原創(chuàng)理論開發(fā)實用系統(tǒng),為行業(yè)提供領先自主、擁有根技術的原創(chuàng)產品和解決方案。得益于深圳“雙區(qū)驅動”的重大歷史機遇、優(yōu)質的創(chuàng)新土壤、良好的“產學研用”生態(tài)基礎,優(yōu)質的營商環(huán)境以及一流的企業(yè)發(fā)展配套服務,深算院在發(fā)展之初獲得了政策、資金和人才等等各方面的扶持,才能在短短幾年間取得突破性的科研成效以及商業(yè)落地。未來,深算院將朝著建設世界一流的計算科學基礎研究機構的目標,繼續(xù)以新模式和新速度高速穩(wěn)健發(fā)展,打造中國原創(chuàng)的基礎軟件品牌。