科技改變生活 · 科技引領未來

          • 首頁
          • 資訊
          • 技術
          • 百科
          • 問答
          • 學習
          • 看看
          • 站長
          • 生活
          • 快訊

          首頁 > 資訊 > 快訊

          100倍分析性能提升 清華冠軍團隊用圖數據震驚世界

          時間:2019-05-30 21:49 作者:金楠

          中美貿易戰愈演愈烈,歸根結底是美國對我們遏制和我們謀求持續發展之戰。美國幾次三番針對我國的科技公司,為我們敲響了警鐘,科技自強是硬道理。

          我國雖然鮮有頂尖級的系統軟件商業公司,但我們在科技領域并不缺少世界頂尖人才和成果。以清華大學朱曉偉博士為例,他在讀期間專注于圖計算領域,研發的Gemini分布式圖計算系統,處理速度超出學術界最快系統10倍(通常性能超出40%~50%已經是很好的優化,超出2倍就很夸張了,超出10倍,可想而知學術界的震驚情況),朱曉偉博士在2016年投稿USENIX ATC會議時,因其中一位評審專家不相信能達到這樣的性能而被拒絕入選,用該專家話說,“too good to be true”。無奈,朱曉偉博士只得補充了一些其他系統性能不足的原因分析,并附上源碼接受挑戰,因禍得福,論文最終入選USENIX主辦的OSDI(Operating Systems Design and Implementation,OS領域最好的會議之一),這也是我國第一次有高校主導的學術研究入選OSDI,如今該論文已經作為圖數據領域的標桿被引用多達上百次。

          系統軟件的成熟需要長期的投入和積累,很難像互聯網產業那樣從一個商業模式快速迭代成一個TOP級的商業公司。一款成熟的系統軟件需要兩個必要的條件:優秀的人才和持續的積累。這些人才和積累,就是商業公司的壁壘。人才方面,頂尖的系統軟件人才,在實習期,甚至在優秀論文發表進入學術界視野的時候,往往就已經被國外的技術公司“盯上了”;即便是留在國內公司,也會很分散的進入BAT(百度阿里騰訊)、TMD(頭條美團滴滴)等企業作為項目負責人率隊解決實用的難題或者去復刻國外系統,很難集中一批優秀的人才專注在某一領域持續創新研究。畢竟把幾個頂尖人才放在一個項目里是極其奢侈的,從人力成本的角度考慮,即便大廠也不愿意做。人才的分散,使得技術積累變得更加困難,而高校積累的、曾經閃閃發光的那些研究成果,隨著學生畢業進入工作環境,也會因為缺少精力維護而擱淺,被埋沒或遺忘。

          朱曉偉博士在畢業前同樣面臨著同樣的困惑:Gemini系統即將被束之高閣么?這么多年的學習和研究,很可能就要作為基石,被其他國家的科學家進一步研發、商用、構建新的壁壘。“不甘心”這幾個字在他心里生根發芽。

          清華頂尖博士團隊 變革系統軟件的科技格局

          圖數據很多人不太了解,這里簡單的普及一下。圖是將信息中的實體,以及實體之間的關系,分別抽象表達成為頂點以及頂點間的邊這樣的結構數據。圖計算系統就是針對圖數據處理的系統,它在圖結構的數據上進行針對性優化的高效計算,尤其適合大規模的關聯關系分析。相比傳統的關系型數據(以Oracle為代表),圖的邏輯可以很好的解決目前遇到的關聯數據分析問題,如繪制用戶社交關系圖譜做社交影響力排名、好友推薦;通過繪制資金交易圖譜做大數據征信、反欺詐等應用;構建設備關系網絡圖譜實現物聯網建模分析、供電網絡建模分析等等。

          該領域,國內最先進的團隊是由陳文光教授帶領的清華團隊,他們十年前就關注到了圖數據技術,歷任學子均參與過圖數據的研究,并在OSDI、EuroSys、ATC等頂級會議中發表了多篇相關論文,他們編寫的圖計算系統比學術界最快水平快了10多倍,比常見工具快了100多倍。

          作為我國計算機領域“產”、“學”、“研”、“用”的第一人,陳老師自然是敏銳的捕捉到了圖數據的大有可為:隨著AI如火如荼的發展,圖數據作為底層數據存儲分析技術,可以幫助機器學習領域獲取更多維度的信息,在打破性能的約束后,可以說圖計算是下一代AI發展的推速器。既然已經有了超前的學術成果,為什么我們不將其落地,進入尋常企業中?陳老師的提議很快得到了一眾博士學霸們的響應,做商用系統軟件很苦,但是很值得,為的是讓性能瓶頸不在成為分析的障礙,也為了中國系統軟件揚眉吐氣的機會 。

          組件團隊時,陳教授第一個想到的門生,是已經博士畢業多年,編寫了世界上第一個開源分布式C++圖計算系統,在微軟亞洲研究院負責微軟下一代大數據系統平臺和分布式機器學習平臺的洪春濤博士,MXNET早期原型設計正是在洪春濤博士的幫助下完成的。在微軟研究院率隊研發的經歷,使得洪春濤博士既有成熟商業軟件開發的經驗,同時具備協作管理的閱歷和協同開發的節奏把控力。加之對圖計算的敏銳度,是擔綱團隊領袖的最佳人選。而洪春濤博士也早有做一番事業的想法,可以說是一拍即合。

          朱曉偉博士自不必說,一路頂著保送清華、碩博連讀、國家級獎學金、西貝爾學者、被國際一流期刊重點關注、斬獲AMC一等獎等眾多科技獎項的學者,比起去大廠帶團隊拿高薪,能讓研究成果學以致用比什么都重要。

          除了曉偉博士這樣的“性能怪獸”,另一位“重量級”選手——應該是重“量級”選手——林恒博士的加入,更讓陳老師覺得“穩了”。林恒博士是“神威·太湖之光”Graph500作者。“太湖之光”是我國連續兩年四屆取得Top500排名世界第一的高性能計算機,也是唯一一臺采用自主研發的國產處理器的TOP ONE系統。林恒博士主導了該系統Graph500評選并獲得世界排名第二,填補了國產高性能系統在數據分析領域獎項的空白。同時基于“太湖之光”研發的“神圖”系統是世界上規模最大的圖計算系統,入選了2018年“戈登·貝爾”獎決賽,也是中國唯一入圍該獎項的項目。

          速度、體量兼有之,陳老師覺得還不夠,因此又挖來了GPU加速、機器學習領域專家李愷威博士,也是團隊的另一位西貝爾學者、奧賽金牌獲得者,曾率隊連獲世界三大超級計算機比賽(ASC、SC、ISC)的總冠軍,在清華計算機系素有“小神童”之稱。

          至此,由冠軍們組成的團隊就成型了,幾位創始人每個都是以一敵百,技術公司搶破頭的精英,放棄了高薪、大廠、帶團隊的機會,被陳老師“一鍋端”了,這樣的頂尖陣容,放眼世界也找不到第二個。 “下一代的 AI 可能就踩在我們的肩上了 ”懷揣著改變科技格局的夢想,著手圖數據落地的項目啟動了。

          快如電光的“費馬”

          說是項目啟動,其實幾位創始成員延續著此前在組里的默契和協作,跟博士在讀期間的工作沒有太大的區別。唯一的不同,就是商業應用不同于實驗室中固定的環境和場景測試,需要顧及系統的方方面面,為了系統的高可用性、易用性、可移植性等應用場景中必不可少的部分,團隊重構了圖數據系統,優化了系統可用性,內置了大量的算法,封裝接口等等,支持豐富的接口和調用語言,并提供數據快速導入導出、可視化等外圍工具,便于管理和使用,使其更適應商業應用場景。

          把世界上TOP級的聰明人聚在一起,自然效率奇高。系統重構僅用了三個月的時間,還是在洪春濤博士的嚴格要求下所用的時間。學霸之所以是學霸,不僅是靠天分,同時也靠好習慣。一直以來,洪春濤博士的每段代碼,都會寫兩遍,第一遍目的是實現功能、跑通程序,第二遍是更合理更簡潔更完美的實現,“對于程序員來說,2.0版本總是最好的,所以我會一次就做2.0”。作為團隊核心,洪春濤博士即是CEO也是大家的學長,這一習慣被他帶到了團隊里,后面無論項目多緊張,這一習慣也不會打破。因此,在微軟6年率隊開發大規模復雜系統經驗的加持下,洪春濤博士帶領團隊高質量的完成了系統重構。

          產品成熟了,隨之而來終于迎來了一個大家有分歧的問題:起名字。

          起名這件事,可能比代碼重構更燒腦,為此團隊展開了激烈的討論,最終學霸們為項目起了個速度為王的名字:F=ma(費馬)。F=ma是牛頓第二定律,意為“加速”;同時FMA也是計算機的乘加指令(比快更快),中文名字致敬了數學家皮埃爾.德.費馬。從此快如電光的LightGraph和PandaGraph有了更快的名字“費馬”。

          性能快百倍,內存消耗少十倍的 “閃電計算”

          圖數據的數據邏輯維度要遠高于關系型數據,以社交場景為例,以往我們分析微博大V的權重,通常會按其粉絲數量來排名;而圖數據不僅關注粉絲數量,同時關注粉絲質量,大V的粉絲是僵尸粉還是活躍粉,是小白還是同為大V,互動是否頻繁等等維度數據在圖數據中年清晰可尋。因此,圖數據分析遠超出二維的分析維度,每增加一層,分析的難度就高了百倍,分析的難度差距是巨大的。數據分析維度和數據量的增長對系統性能提出了更高的要求,如果性能不足,想要的分析也是難以實現的。

          不同于以往科技公司“復刻”國外成熟產品和模式的套路,費馬冠軍團隊只做性能最佳。那么對比國外成熟的圖數據平臺,費馬憑什么能性能快百倍,內存消耗少十倍?

          費馬CEO洪春濤博士直言是“同類產品太差了”,在客戶的實際業務環境中,經常會有上千倍的差距。

          除了出自最嚴謹代碼作者這一重要因素以外,從架構層到功能層,費馬圖數據平臺進行了層層優化。在架構層,費馬團隊選擇了更適合底層數據交互的C++語言,而不是主流的Java語言,雖然編寫的復雜度高一些,但在應用時能夠更靈活。舉個例子,當圖數據庫從外存中讀取數據時,有時需要利用操作系統的MMAP功能,而操作系統默認會進行預讀取。操作系統假設我們是連續讀取數據的,所以當我們讀取一塊數據時,它會幫我們把后面的數據也預先讀取進來。但是在數據庫中,我們經常是隨機訪問的,因此這個預讀取功能會浪費時間讀取沒有用的數據。對于C++來說,我們可以通過系統調用來關閉這一功能,而Java則沒有對應的功能。類似的操作還有很多,C++語言對底層數據處理更友好。在費馬團隊看來,選擇什么語言來編寫取決于實用性而非編寫者的偏好。

          功能上,在存儲方面,費馬支持多版本并發,將讀寫操作分開,寫操作不影響讀操作的性能,不會因為頻繁的讀寫而降低性能;支持事務內并行,多個線程可以在同一快照上執行操作,從而加速長事務分布式處理;采用無鎖數據結構,數據讀取操作不需要任何鎖操作,帶來極高的吞吐率;前綴壓縮,將相關數據存儲在連續的空間中,從而提高遍歷操作的效率,減少重復檢索操作等等。

          在分析方面,費馬支持分布式擴展,能夠線性擴展到分布式環境,正如閃電一樣延伸再延伸;雙模式驅動,圖數據訪問支持推送和拉取兩種模式,并在運行中自動選擇更優的模式,提高數據訪問效率;采用連續數據塊劃分,在數據劃分時,利用真實數據內在的關聯性,將有關聯的數據劃分在一起,高質量的劃分方法在分析時大有裨益;細粒度調度,將圖數據任務動態映射到設備的CPU、核、線程等多個層級,滿負荷利用計算資源。

          種種優化帶來了費馬100倍性能增長的“閃電計算”,計算力可以無限延伸,處理萬億級的數據毫不費力,用戶只需要基于費馬平臺,構建應用場景即可,處理速度電光即達。

          目前,費馬科技已為工商銀行、京東金融、民生銀行、搜狗搜索等大型金融、互聯網企業及政府、軍工類項目提供高性能可擴展的圖數據平臺,為企業存儲和分析大規模圖數據提供強有力的支持,同時費馬團隊在客戶實踐中經常會幫助客戶額外優化場景和算法,致力于最佳實踐。相信我國的頂尖級系統軟件商業公司正奔跑在路上,“科技是沒有疆界的,但是科學家有”,而費馬科技目前要做的事情,就是突破封鎖,盡快成長為Oracle級別的系統軟件公司。我們也期待著更多頂尖成果落地商用,構筑起我們科技的長城。

          相關話題

          • 以民貸天下為例,看網貸成熟出借人的正確“養成姿勢”
          • P2P投資理財如何選平臺?你我貸、翼龍貸、錢來也
          • “2019新型企業論壇”榜單出爐 影譜科技攬獲三獎
          • 新風口來了:抖音、快手轉型直播電商
          • 初心與堅守:眾力金融合規先行 風控為王
          • 5G室內基站:5G室內基站可提供家庭網絡建設服務
          • 科技賦能金融,洋錢罐風控實力構建平臺核心競爭力
          • 5G手機離不開5G調制解調器 高通X50助行業伙伴出海
          • 哪版妲己演出了你心中的樣?
          • 美好生活日暨宜信13周年:CEO唐寧談企業之道
          • 蘋果和Facebook突然“開撕”?世上沒有無緣無故的“恨”
          • 低收入人群出借,從人人貸、洋錢罐、極光金融、悟空理財開始
          • 希望金融:全面推行科技化發展戰略,提升三農小微服務效率
          • P2P進入備案沖刺階段:陸金所、銅板街、極光金融、和信貸
          • 大麥理財:《少年派》啟示錄 別活成王頂男一樣的女人
          • 聯發科P90終端手機體驗:攝影功能強大,夜拍能力出色
          • 巨頭入局大病互助新風口,360向130種疾病開戰
          • 宜人財富:為富裕人群財務健康狀況“體檢”
          • 把錢放在余額寶里真的好么?拍拍貸、極光金融、微貸網
          • 我考上大學了,爸媽卻失落了…..

          熱門推薦

          • 沈騰馬麗回應互聯網爸媽
          • 周深貴陽演唱會
          • 中國科學院資深院士張存浩逝世
          • 美俄兩國防長通電話
          • TKL3比1DYG拿到第二輪首勝
          • 多地禁止一線教師暑假值班
          • 多部門駁斥美簽署所謂涉藏法案
          • 裴文宣的愛都藏在行動里
          • 假如我在飛機上遇到明星
          • 官方:北部灣海域有四艘沉船
          • 曾舜晞:我弟是我偶像
          • 王玉雯帶照片讓張新成簽名
          • 亞馬爾17歲生日快樂
          • SNH48王奕周詩雨予你巡演成都站
          • 巧了你也穿了白色入境
          • 杰倫布朗官宣女友
          • 布朗尼三分8中0
          • 原來胡歌也不能笑著離開理發店
          • 銀河系比想象中更大
          • 樊振東全紅嬋再同框

          金楠

          關注
          免責聲明:本文章由會員“金楠”發布,如果文章侵權,請聯系我們處理,本站僅提供信息存儲空間服務 如因作品內容、版權和其他問題請于本站聯系

          關注排行榜

          1. 1沈騰馬麗回應互聯網爸媽
          2. 2周深貴陽演唱會
          3. 3中國科學院資深院士張存浩逝世
          4. 4美俄兩國防長通電話
          5. 5TKL3比1DYG拿到第二輪首勝
          6. 6多地禁止一線教師暑假值班
          7. 7多部門駁斥美簽署所謂涉藏法案
          8. 8裴文宣的愛都藏在行動里
          9. 9假如我在飛機上遇到明星
          10. 10官方:北部灣海域有四艘沉船

          編輯精選

          Copyright ?2009-2022 KeJiTian.Com, All Rights Reserved

          版權所有 未經許可不得轉載

          增值電信業務經營許可證備案號:遼ICP備14006349號

          網站介紹 商務合作 免責聲明 - html - txt - xml

          感谢您访问我们的网站,您可能还对以下资源感兴趣:

          经典香港**毛片免费看_91精品一区二区综合在线_欧美人与性动交a欧美精品_国产小视频在线看