CSDN 發(fā)表于:14年10月20日 13:15 [來(lái)稿] DOIT.com.cn
作為互聯(lián)網(wǎng)金融領(lǐng)域的先行者,成立于2009年底的阿里小貸發(fā)展初衷即是為淘寶和天貓上的賣(mài)家提供小額貸款業(yè)務(wù),實(shí)現(xiàn)“讓天下沒(méi)有難做的生意”的目標(biāo)。伴隨產(chǎn)品形態(tài)的豐富,服務(wù)對(duì)象的擴(kuò)展,小貸業(yè)務(wù)增長(zhǎng)迅速,平均每年增長(zhǎng)速度在四到五倍。經(jīng)歷了近5年的發(fā)展,已有超過(guò)36萬(wàn)人從阿里小貸借款,最小貸款額為1元。
與傳統(tǒng)銀行不同的是,阿里小貸重塑了一套信用評(píng)價(jià)體系和信用概念,其小額貸款模式不需要抵押物,是純信用貸款。信用從何而來(lái)?來(lái)源于貸款者線上經(jīng)營(yíng)信用數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等,阿里小貸對(duì)貸款者在互聯(lián)網(wǎng)上積累的海量數(shù)據(jù)進(jìn)行分析予以授信。數(shù)據(jù)成為阿里小貸業(yè)務(wù)模式的基礎(chǔ),也是核心所在。究其根本,這是一筆數(shù)據(jù)生意。
這筆數(shù)據(jù)生意,從第一天起,就根植于阿里云計(jì)算飛天平臺(tái)之上。
數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng),掘金阿里數(shù)據(jù)
“3分鐘申請(qǐng)、1秒放款、0人工干預(yù)”,這是阿里小貸獨(dú)有的一套高效工作模式,這樣的高效有賴(lài)于其背后獨(dú)特的業(yè)務(wù)模式,它將是否放貸、貸款額度和風(fēng)險(xiǎn)評(píng)估等傳統(tǒng)銀行最為看重的業(yè)務(wù)環(huán)節(jié)完全交給了大數(shù)據(jù)處理平臺(tái)。阿里小貸數(shù)據(jù)倉(cāng)庫(kù)的總共數(shù)據(jù)量十多PB。每天處理上PB的數(shù)據(jù)量,包括店鋪等級(jí)、收藏、評(píng)價(jià)等幾百億個(gè)信息項(xiàng),運(yùn)算上百個(gè)數(shù)據(jù)模型,甚至需要測(cè)評(píng)用戶(hù)對(duì)假設(shè)情景的掩飾和撒謊程度。最終用戶(hù)能否申請(qǐng)貸款、能貸到多少錢(qián),完全依靠的是大數(shù)據(jù)平臺(tái)為其計(jì)算出來(lái)的信用值。這些無(wú)疑對(duì)大數(shù)據(jù)處理平臺(tái)的可靠性、安全性以及計(jì)算的準(zhǔn)確性提出了極高要求,算錯(cuò)一筆可能就會(huì)造成比較大的資金損失。
為了確保數(shù)據(jù)計(jì)算的準(zhǔn)確性,阿里小貸要從各個(gè)層面去挖掘申請(qǐng)貸款的賣(mài)家或者消費(fèi)者的信息,這個(gè)過(guò)程幾乎會(huì)用到整個(gè)阿里集團(tuán)包括淘寶、天貓、B2B和1688等多個(gè)業(yè)務(wù)部門(mén)的數(shù)據(jù),以及集團(tuán)外部的社會(huì)征信數(shù)據(jù)。這也使得阿里小貸聚集了多個(gè)項(xiàng)目的技術(shù)骨干。其中,負(fù)責(zé)阿里小貸數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)模型和基礎(chǔ)平臺(tái)建設(shè)的架構(gòu)師陳鵬宇和負(fù)責(zé)早期運(yùn)維工作的資深經(jīng)理張國(guó)保就是項(xiàng)目中重要的技術(shù)負(fù)責(zé)人。近日,他們深入分享了阿里小貸技術(shù)演進(jìn)歷程。
據(jù)他們介紹,小貸業(yè)務(wù)目前每天從外部同步過(guò)來(lái)的數(shù)據(jù)量上百TB。數(shù)據(jù)同步過(guò)來(lái)之后要經(jīng)過(guò)小貸數(shù)據(jù)倉(cāng)庫(kù)的三層加工,加工結(jié)果以指標(biāo)(輸出模型要用到的離線變量)的形式傳遞到阿里集團(tuán)的通用決策系統(tǒng)AGDS。通用決策系統(tǒng)能夠支持上萬(wàn)種數(shù)據(jù)倉(cāng)庫(kù)提供的離線變量,包括買(mǎi)家、賣(mài)家及店鋪交易等所反映出的眾多數(shù)據(jù)。此外,它還會(huì)從其他系統(tǒng)獲取一些實(shí)時(shí)信息,如賣(mài)家當(dāng)前的交易情況、具體的處罰情況等,并結(jié)合這些實(shí)時(shí)數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)的離線變量動(dòng)態(tài)計(jì)算賣(mài)家的風(fēng)險(xiǎn)程度和授信模型。因此,通用決策模型是小貸真正的業(yè)務(wù)引擎,其上大約有幾千條規(guī)則,可以理解成一條有幾千變量的公式,能算出賣(mài)家的最終授信模型。在放貸系統(tǒng)申請(qǐng)時(shí),這個(gè)引擎就能告知它是否可以放貸、大約可以放多少錢(qián)等。這便是小貸依據(jù)數(shù)據(jù)計(jì)算做業(yè)務(wù)決策的整個(gè)過(guò)程,如圖1所示。
圖1 依據(jù)數(shù)據(jù)計(jì)算做業(yè)務(wù)決策的整個(gè)過(guò)程
此外,阿里小貸的業(yè)務(wù)特點(diǎn)決定它對(duì)安全性和實(shí)時(shí)性也有很高要求。阿里小貸使用了多方數(shù)據(jù),包括集團(tuán)內(nèi)部的數(shù)據(jù)以及其他合作伙伴提供的數(shù)據(jù)。這些數(shù)據(jù)都高度敏感,阿里小貸作為使用方有義務(wù)確保數(shù)據(jù)安全,因此對(duì)平臺(tái)的安全性有較高要求而且發(fā)放貸款之后,要做好貸后監(jiān)控。小貸通常會(huì)根據(jù)貸款人的網(wǎng)上行為數(shù)據(jù),對(duì)其信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。這種評(píng)估做得越及時(shí),就越有可能在出現(xiàn)異常時(shí)提前發(fā)出預(yù)警、挽回?fù)p失。而準(zhǔn)確性、安全性和實(shí)時(shí)性等阿里小貸的核心業(yè)務(wù)特性都得到飛天平臺(tái)的有力支持。
根植飛天平臺(tái),業(yè)務(wù)迅猛增長(zhǎng)
由于阿里小貸的業(yè)務(wù)與數(shù)據(jù)相生相依,伴隨數(shù)據(jù)來(lái)源的廣泛增長(zhǎng),數(shù)據(jù)庫(kù)會(huì)越來(lái)越龐大,任何傳統(tǒng)數(shù)據(jù)平臺(tái)都沒(méi)有能力支撐這種業(yè)務(wù)模式,同時(shí),前文提到的阿里小貸對(duì)準(zhǔn)確性和安全性的嚴(yán)苛要求,當(dāng)時(shí)業(yè)界并沒(méi)有成熟的解決方案,結(jié)合云平臺(tái)在存儲(chǔ)和計(jì)算方面可以提供的強(qiáng)擴(kuò)展能力,阿里小貸成為“飛天”平臺(tái)的第一批用戶(hù),并見(jiàn)證了飛天平臺(tái)的每一步成長(zhǎng)(如圖2所示)。反過(guò)來(lái)看,也正是“飛天”這樣強(qiáng)大的云平臺(tái),才能支持小貸平均每年四到五倍這樣近乎野蠻的業(yè)務(wù)增長(zhǎng)速度。2010年4月10日小貸業(yè)務(wù)第一款基于“飛天”的貸款產(chǎn)品——淘寶訂單貸款發(fā)布,只面向杭州地區(qū)提供服務(wù)。那時(shí)的飛天集群只有30臺(tái)服務(wù)器,小貸業(yè)務(wù)用了兩個(gè)集群,數(shù)據(jù)處理引擎是SQL Engine 0.2。兩個(gè)集群同時(shí)運(yùn)行相同的業(yè)務(wù),計(jì)算出結(jié)果后,需要人工將計(jì)算結(jié)果備份到另一個(gè)集群。同年9月,阿里小貸決定將業(yè)務(wù)開(kāi)放到全國(guó),然而在一切準(zhǔn)備就緒時(shí),發(fā)現(xiàn)當(dāng)時(shí)的集群規(guī)模無(wú)法支撐那么大的計(jì)算量。這時(shí),飛天團(tuán)隊(duì)做了一件當(dāng)時(shí)看起來(lái)很了不起的事,將集群規(guī)模從30臺(tái)擴(kuò)展到100臺(tái),SQL Engine 0.2升級(jí)成0.8版本,保障了阿里小貸在2010年11月順利將業(yè)務(wù)擴(kuò)展到全國(guó)。
圖2 阿里小貸進(jìn)化史
2010年底,阿里小貸的貸款模型由原來(lái)的兩個(gè)(授信和貸后預(yù)警)發(fā)展成十個(gè)。大家逐漸發(fā)現(xiàn),要想支持這么多模型不能再采用煙囪式的方法,因?yàn)槟玫綌?shù)據(jù)后要走很長(zhǎng)的加工鏈路,才能得出要用的指標(biāo)。這時(shí),需要有一個(gè)底層的公用數(shù)據(jù)庫(kù),于是大家開(kāi)始動(dòng)手建數(shù)據(jù)集市。此時(shí),又遇到了跟當(dāng)初擴(kuò)展全國(guó)業(yè)務(wù)一樣的問(wèn)題,集群處理能力再次受到挑戰(zhàn)。飛天平臺(tái)再一次做版本升級(jí),將數(shù)據(jù)處理引擎從SQL Engine 0.8升級(jí)成DataEngine 0.2,Data Engine 0.2有兩項(xiàng)重大突破:1. 存儲(chǔ)壓縮,壓縮比可達(dá)到2~5倍;2. 計(jì)算性能大幅提升。最終,集群規(guī)模瓶頸被成功突破,飛天為阿里小貸性能提升提供了足夠的存儲(chǔ)和計(jì)算能力。
隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)挖掘項(xiàng)目對(duì)阿里歷史數(shù)據(jù)的需求越來(lái)越大,有些項(xiàng)目甚至需要從2003年淘寶成立以來(lái)賣(mài)家的所有數(shù)據(jù)中去挖掘信息,這便對(duì)數(shù)據(jù)跨度和質(zhì)量提出了很高的要求。于是,阿里小貸開(kāi)始構(gòu)建大型數(shù)據(jù)倉(cāng)庫(kù),但這無(wú)疑給飛天提出了更大挑戰(zhàn),尤其是在穩(wěn)定性方面一定要有所保證。ODPS的研發(fā)開(kāi)始,將Data Engine與運(yùn)行于云梯1上能支持1500臺(tái)服務(wù)器的莫邪合并,將莫邪作為ODPS的數(shù)據(jù)處理引擎。同期,飛天將集群服務(wù)器規(guī)模擴(kuò)展到千級(jí)別。這時(shí)對(duì)阿里小貸來(lái)說(shuō),等于ODPS將飛天平臺(tái)包在了底層,主要由ODPS來(lái)對(duì)阿里小貸的業(yè)務(wù)提供支持。
2012年初,集團(tuán)開(kāi)始將數(shù)據(jù)魔方、淘寶指數(shù)、Tcif等重要業(yè)務(wù)從Hadoop集群遷移到ODPS集群上,從一定程度上解決了一直困擾阿里小貸的數(shù)據(jù)共享問(wèn)題。此前,阿里小貸共享集團(tuán)數(shù)據(jù)時(shí)大部分要到Hadoop集群去取,數(shù)據(jù)同步、上游數(shù)據(jù)復(fù)制、下游時(shí)間銜接等都有可能出問(wèn)題,很難保障數(shù)據(jù)產(chǎn)出的質(zhì)量和穩(wěn)定性。
業(yè)務(wù)遷移完成之后,開(kāi)始在ODPS集群上建一個(gè)集團(tuán)的數(shù)據(jù)中心,也就是ODS層,專(zhuān)門(mén)匯總阿里各個(gè)業(yè)務(wù)部門(mén)的數(shù)據(jù),然后在其上提供一個(gè)基礎(chǔ)的統(tǒng)一數(shù)據(jù)服務(wù)。總的來(lái)看,對(duì)比Hadoop,ODPS優(yōu)勢(shì)很明顯:
ODPS有一整套的數(shù)據(jù)隔離、授權(quán)模式特性,在數(shù)據(jù)的邏輯隔離做得很好,同時(shí)提供了多種權(quán)限管理策略:ACL、POLICY、LABE等,最厲害的是,在數(shù)據(jù)嚴(yán)格隔離的情況下支持混合計(jì)算——Protected模式;
ODPS在數(shù)據(jù)計(jì)算和數(shù)據(jù)管理等方面的實(shí)用性功能更加豐富,在很多方面可媲美傳統(tǒng)的RDBMS,例如一些復(fù)雜的開(kāi)窗函數(shù)查詢(xún)等;
ODPS產(chǎn)品易用性較好,上手容易;
在5K之后,ODPS集群的可擴(kuò)展性理論上具備無(wú)限擴(kuò)展的能力;
ODPS支持多租戶(hù)模型,在數(shù)據(jù)、資源的分配和隔離等方面可以較為靈活地控制;6. 性能和穩(wěn)定性方面,雖然兩者相差不大,不同場(chǎng)景下各有優(yōu)劣,但ODPS顯然走得更遠(yuǎn)。
5K出現(xiàn),平臺(tái)和技術(shù)走在業(yè)務(wù)前面
集團(tuán)的ODPS數(shù)據(jù)中心和阿里小貸的業(yè)務(wù)系統(tǒng)放在同一個(gè)集群中,必然造成隨著業(yè)務(wù)增長(zhǎng)爭(zhēng)搶資源的現(xiàn)實(shí)。但如果將數(shù)據(jù)分開(kāi)存儲(chǔ)在兩個(gè)集群的話,又與之前將數(shù)據(jù)從Hadoop集群拷到
ODPS集群來(lái)計(jì)算并無(wú)二致。這時(shí),擴(kuò)展飛天集群規(guī)模成為必然之選。也是在這個(gè)時(shí)間,“飛天”已經(jīng)邁向5K時(shí)代,平臺(tái)和技術(shù)的發(fā)展走在了業(yè)務(wù)需求的前面。
提到飛天5K,除單集群規(guī)模由1000多臺(tái)升級(jí)到5000臺(tái)之外,其實(shí)還有另一個(gè)更重要層次的意義不能忽視,這5000臺(tái)并不是一個(gè)天花板,ODPS集群之間有很強(qiáng)的跨集群復(fù)制能力,確保了集群之間很好的連通性、數(shù)據(jù)有更好的共享性,F(xiàn)在,ODPS數(shù)據(jù)中心已搬到另一個(gè)飛天5K集群上,但得益于5K的跨集群復(fù)制能力,使得ODS層可以為多方提供數(shù)據(jù)而無(wú)需顯式拷貝,用戶(hù)感覺(jué)不到集群的變化或數(shù)據(jù)傳輸延遲。
2014年7月8日,ODPS正式開(kāi)放對(duì)外提供服務(wù)。此前,ODPS一直是阿里巴巴內(nèi)部的秘密武器,第一個(gè)用戶(hù)就是阿里小貸。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)一般都搭建在Oracle等關(guān)系型數(shù)據(jù)庫(kù)上,而阿里小貸搭建在飛天平臺(tái)上,所以必然會(huì)要求ODPS能提供很多關(guān)系型數(shù)據(jù)庫(kù)的功能,例如,存儲(chǔ)過(guò)程編程能力,以及很多數(shù)據(jù)分布的開(kāi)放函數(shù)和數(shù)據(jù)分析函數(shù)等。這在技術(shù)上非常有挑戰(zhàn)性,因?yàn)樵贠DPS這樣的分布式框架里解決這些問(wèn)題要比在關(guān)系型數(shù)據(jù)庫(kù)中難很多。ODPS比較逼真地模擬了傳統(tǒng)RDBMS的物理表和視圖概念,包括存儲(chǔ)分區(qū)都很像Oracle,能支持很多傳統(tǒng)數(shù)據(jù)的功能。
然而,在ODPS上構(gòu)建一個(gè)大型數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,仍然有一些地方需要注意,這里分享一個(gè)最為關(guān)鍵的點(diǎn)——數(shù)據(jù)管理粒度的劃分,即ODPS和Project的劃分;旧峡蓪DPS理解成一個(gè)數(shù)據(jù)管理的基本單元,常見(jiàn)劃分粒度的方法有幾種:按照層次分成幾層,每層一個(gè)Project;或者整個(gè)數(shù)據(jù)倉(cāng)庫(kù)為一個(gè)Project;或者每一個(gè)主題數(shù)據(jù)為一個(gè)Project等。這個(gè)粒度劃分對(duì)于后期的管理成本有非常大的影響。但針對(duì)不同團(tuán)隊(duì)的不同階段會(huì)有不同的劃分方案,并沒(méi)有什么絕對(duì)的劃分方案,一般會(huì)從幾個(gè)維度來(lái)思考:數(shù)據(jù)倉(cāng)庫(kù)所面向的用戶(hù)范圍及數(shù)據(jù)業(yè)務(wù)要面向的人群,不僅是開(kāi)發(fā)者,用戶(hù)也會(huì)在數(shù)據(jù)倉(cāng)庫(kù)上直接使用數(shù)據(jù);團(tuán)隊(duì)內(nèi)部的協(xié)同方式,如何決策和分工;數(shù)據(jù)安全方面的一些策略,例如數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)層可能不開(kāi)放,那么它是如何對(duì)其他系統(tǒng)做輸出的,不同的輸出策略也會(huì)影響數(shù)據(jù)管理粒度的劃分等。一定要在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)之初,將數(shù)據(jù)管理粒度劃分好,因?yàn)槌莵?lái)一次比較大的重構(gòu),基本上很難有回頭路。
借力云,小企業(yè)與大企業(yè)同步起跑
從阿里小貸這門(mén)數(shù)據(jù)生意的發(fā)展歷程不難看出,小貸業(yè)務(wù)與阿里云之間既有相互磨合,又有相互促進(jìn),從而成就了彼此業(yè)務(wù)的迅速發(fā)展。而云計(jì)算為小貸業(yè)務(wù)帶來(lái)的則不僅僅是平臺(tái)的支撐、成本的降低,從某種意義上講,云計(jì)算是這種以數(shù)據(jù)為核心的新型互聯(lián)網(wǎng)金融業(yè)務(wù)可以依托的天然平臺(tái)。
伴隨著底層技術(shù)的不斷完善與持續(xù)發(fā)展,更多中小企業(yè)可以在云計(jì)算平臺(tái)上獲得數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理服務(wù),并從而構(gòu)建豐富的數(shù)據(jù)應(yīng)用,云計(jì)算使得每一個(gè)中小企業(yè)具備和大企業(yè)同步起跑的底氣,支撐更多創(chuàng)新服務(wù)的涌現(xiàn),這是云計(jì)算承載的重要意義所在。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶(hù)寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.