科技改變生活 · 科技引領未來
作為數據挖掘研究領域最具影響力的國際頂級賽事,素有“數據世界杯“之譽的KDD Cup日前正式公布了KDD Cup 2019三項重大賽事,包括Auto-ML Track、Regular ML Track及Humanity RL Track三場比賽,其中開賽22年以來首次引入的AutoML Competition挑戰賽受到不少學術及工業界專業人士的關注。
AutoML(Automated/Automatic Machine Learning,自動機器學習)旨在研究在沒有專業知識的情況下、使用的低門檻甚至零門檻的機器學習算法,在AI人才緊缺的情況下,AutoML可以降低AI落地過程中對科學家的依賴,是 2014 年以來機器學習領域最炙手可熱的研究對象之一。2018年1月,谷歌高調推出自動機器學習產品Cloud AutoML,再次將這項技術推向更多人的視野中,目前AutoML已成為國內外科技巨頭關注的焦點。由于日益受到學術界、工業界的廣泛關注, NeurIPS、IJCAI等學術頂會從去年開始將AutoML視為重點。本次KDD Cup選擇將其納入比賽內容,并為此打破歷來數據挖掘方向賽事的傳統,也是基于對AutoML技術發展趨勢和落地價值的認可。對此,KDD Cup主席Taposh Dutta-Roy表示,AutoML是今年KDD關注的重點,也是一項AI落地的關鍵技術。
據了解,本次KDD Cup AutoML挑戰賽由國內AI獨角獸公司第四范式主辦,微軟、AutoML領域最權威的學術組織ChaLearn協辦,并為此次比賽設置了“史上”難度最高的比賽項目——基于時序關系型數據的AutoML。時序關系型數據在在線廣告、推薦系統、金融市場分析、醫療等應用場景中非常常見,人們往往需要利用這樣的數據去構建機器學習模型,并應用機器學習模型提升對應業務的效果。賽事主要負責人、第四范式資深算法科學家涂威威表示這是AutoML比賽歷史上首次考慮時序關系型多表數據,會重點考察AutoML在實際應用場景中的能力,應對關系型、時序等多表類型數據的挑戰,探索AutoML解決實際問題的價值。競賽已于4月1日正式拉開帷幕,挑戰賽分Feedback(反饋)、Check(校驗)、AutoML(盲測)3個階段,最終根據AUC排名選出冠軍團隊,并在7月20日公布比賽結果。
值得一提的是,KDD Cup比賽向來由具備深厚學術積累和行業實踐的頂級企業或高校承辦,競爭極為激烈,歷屆承辦方有微軟、阿里等巨頭公司和卡耐基·梅隆大學等知名高校。本次第四范式能打破這一傳統獲得承辦權,主要是基于其在AutoML領域的耕耘及成果。據悉,第四范式自2015年起開展AutoML研究,自主研發了自動特征組合(FeatureGo)、自動時序特征(TemporalGo)、自動深度稀疏網絡DSN(Deep Sparse Network)等AutoML關鍵性支撐技術,并全球率先將AutoML應用于工業界,構建了反欺詐、個性化推薦等業務場景下的AutoML。根據公開材料,第四范式曾先后舉辦了PAKDD、NeurIPS等頂級學術會議的AutoML比賽,完成了從技術參與者到規則制定者的角色轉換。
AI技術的發展,興起于比賽,成功于行業,此前ImageNet賽事推動了一大批CV公司的成長,并且極大地促進了行業爆發。AutoML的產業發展延續了這個路徑,此次首登“數據世界杯”的比賽舞臺,KDD平臺將有望吸引更多“全球最聰明的大腦”參與到AutoML進程中,AutoML或將落地于更廣泛的行業和場景,迎來新的發展高峰。
劉楠遠