以上橫軸為數據量,縱軸為準確率,藍色以及綠色線條分別代表深度學習以及傳統算法。根據Jeff Dean的預判,隨著數據規(guī)模的不斷擴大,未來深度學習算法的精度也將不斷提升。
人工智能背后的數據力量
人工智能的發(fā)展目標是讓機器像人類一樣學會學習。算法模型訓練、提升性能、機器學習等都需要大量數據的迭代與支持,數據的采集、標注與價值挖掘是AI得以在實際應用場景中大展拳腳的重要工作前提。
而想要做好“數據”,不僅是要懂 “數據”,更重要的是針對數據采集標注軟件工程能力和系統能力入手。事實上,正所謂“工欲善其事必先利其器”,如何通過技術層、工具層的優(yōu)化,在最大限度提升人效比的同時提升數據標注準確性,做好數據標注這件“人機協作”的事,成為AI應用落地的重要課題。
面對當前市場需求,AI數據服務供應商為助力AI產業(yè)發(fā)展積極獻言建策,紛紛做出積極嘗試。云測數據推出的數據標注平臺以完成人工智能算法訓練所需的數據“在環(huán)迭代”為目標,致力于推動AI模型訓練數據持續(xù)以高效率、高質量的特點,加速AI在行業(yè)的場景化落地。
全品類、多工具組件,可靈活部署
由于AI應用場景邊界的不斷擴展,數據標注工具也從簡單過渡到復雜,以往市面上開源工具多已經無法適應工具需求從簡易到復雜的變化。加之數據標注業(yè)務具有多樣性、豐富性,集成多樣性、靈活些的標注工具平臺成為實現現階段精準標注數據的首要需求。
云測數據推出的數據標注平臺支持圖像、文本、語音、視頻以及點云數據等數據類型的一站式加工處理,擁有3D立體框、點云語義分割、特征點、線段、矩形框、曲線、平面立體框、多邊形等20+種工具組件,可靈活滿足不同的標注需求,配合算法模型進行數據處理落地,并支持標注工具的定制開發(fā)。
可視化項目管理,助推產能提升
前文有說到,開源工具可滿足數據標注需求前期的簡單需求,在選擇標注工具平臺方面,也有一些AI科技企業(yè)和數據服務商通過改寫開源工具以獲得標注能力。但這樣的操作極具局限性——改寫的工具僅能滿足當前最急迫的標注需求,長期卻無法適應項目更替。
在云測數據標注平臺的流程管理上,可準確地把控從創(chuàng)建任務、分配任務、標注流轉到質檢/抽檢等環(huán)節(jié),實現對數據標注過程的全流程掌控,數據標注后經過審核、質檢、驗收等不同環(huán)節(jié)確保數據準確性。平臺流程之間的自動化流轉的作業(yè)銜接,達到了更快的流轉速度,能更好的提升數據作業(yè)的效率。同時在整個項目流轉的過程中,操作員無法對數據進行下載和傳輸,風險管控機制完善,可全方位保證數據的隱私安全。
更好的數據標注平臺,解決數據訓練問題
隨著人工智能技術在各個行業(yè)的落地進程不斷加速,算法模型對數據提出了更高要求。在“工欲善其事必先利其器”這樣的背景之下,數據標注平臺在質量和生產效率上都制約著產能的提升。數據標注工具的結構創(chuàng)新、智能化、工程化等能力,才是助力AI產業(yè)快速落地的推進器,成為行業(yè)發(fā)展過程中各方的共同追求。