yj 發(fā)表于:13年12月03日 10:54 [來稿] DOIT.com.cn
搜索的本質是從海量數(shù)據中挖掘價值,如果大數(shù)據是金礦,搜索技術無疑是大數(shù)據時代的掘金機之一。經過十多年的發(fā)展,搜索技術已經在海量數(shù)據分析、圖譜構造、用戶語義理解等方面有了豐富的積累,而這些技術正是大數(shù)據的基本技術。2013年12月5日-6日舉辦的2013中國大數(shù)據技術大會上,來自百度、奇虎360搜索、一淘搜索事業(yè)部的技術專家將在大數(shù)據技術論壇中帶來大數(shù)據時代搜索技術的實踐分享。
百度技術專家:百度知識圖譜(Knowledge Graph)
今年8月,百度知識圖譜悄然上線。傳統(tǒng)的搜索是以網頁搜索為粒度的,知識圖譜則基于語義、以知識為粒度,從互聯(lián)網中挖出各種知識碎片,形成答案,從根本上提高搜索質量。過去十年,網頁搜索結果幾乎不變,如今,這是一種高質量的有問必答式搜索,可以實現(xiàn)智能交互,也預示著下一代搜索引擎的方向。
2013中國大數(shù)據技術大會中,來自百度的技術專家將為聽眾分享百度知識圖譜的相關技術,對于想要了解下一代搜索引擎的你,絕對不容錯過!
奇虎360搜索技術專家:奇虎360超大規(guī)模HBase集群增強與改進
奇虎360搜索上線于去年8月份,如今,據中國國內權威流量統(tǒng)計機構CNZZ在11月17日公布的數(shù)據顯示,奇虎360搜索在國內搜索市場所占份額已從10月份的20.8%上升至22.6%。然而,360搜索一直較為低調,較少向外界透露自己的核心搜索技術。去年的Hadoop與大數(shù)據技術大會中,奇虎360系統(tǒng)部工程師趙健博分享了“HBase系統(tǒng)在搜索網頁庫的應用”,本次2013中國大數(shù)據技術大會中,來自奇虎360的搜索技術專家,將繼續(xù)講述奇虎360超大規(guī)模HBase集群的增強與改進。
一淘搜索王峰:阿里搜索實時流計算技術
利用批處理方式為搜索引擎提供數(shù)據的方式已經成為過去,實時大數(shù)據處理時代已經到來,一淘及搜索事業(yè)部高級軟件工程師王峰(莫問),將揭秘阿里搜索離線生產集群中的流服務調度、流服務框架、分布式消息隊列等技術,讓你看明白全網商品是如何實時處理并流入阿里搜索引擎的。
王峰曾先后在雅虎中國、阿里云、淘寶和一淘從事搜索引擎和分布式技術領域的研發(fā)工作,目前在網頁抓取團隊,主要負責分布式存儲系統(tǒng)和大數(shù)據處理技術方向。本次演講中王峰即將帶來的主要內容包括:
全網商品搜索系統(tǒng)架構
全網商品實時數(shù)據處理流程
流計算技術揭秘
流服務調度——Hadoop-2.0定制調度器(PriorityCapacityScheduler)
流服務模型——基于YARN的自主流計算模型(StreamService)
流數(shù)據傳輸和持久化——基于HBase的自主分布式消息隊列(HQueue)
除了搜索領域的大數(shù)據核心技術,第七屆中國大數(shù)據技術大會中還有更多精彩議題。Spark核心設計者、Databricks創(chuàng)始人兼CEO Ion Stoica,Apache HBase項目管理委員會主席Michael Stack、百度大數(shù)據首席架構師林仕鼎、華為公司諾亞方舟實驗室主任楊強、Apache Tez commiter Bikas Saha大數(shù)據技術專家領銜,來自騰訊、阿里巴巴、Hortonworks、LinkedIn、小米、Intel等50余位工程師帶來近60場干貨分享,更有《中國智能交通與大數(shù)據技術峰會》專場感受智能交通如何改變生活。第七屆中國大數(shù)據技術大會(Big Data Technology Conference 2013,BDTC 2013)將于2013年12月5日-6日在北京世紀金源大酒店召開。