首頁?行業  »   正文

研究人員開發拖放數據分析工具:北極星

研究人員開發拖放數據分析工具:北極星

在《鋼鐵俠》的電影中,托尼·斯塔克使用全息電腦將三維數據投射到稀薄的空氣中,用手操縱這些數據,并找到解決超級英雄問題的方法。同樣,麻省理工學院和布朗大學的研究人員現在已經開發出一個交互式數據分析系統,該系統可以在觸摸屏上運行,讓每個人都可以像是天才、億萬富翁、花花公子慈善家一樣來處理現實世界中的問題。

研究人員開發拖放數據分析工具:北極星

多年來,研究人員一直在開發一個名為Northstar的交互式數據科學系統,該系統在云中運行,但具有支持任何觸摸屏設備的界面,包括智能手機和大型交互式白板。用戶輸入系統數據集,并使用手指或數碼筆在簡潔方便的界面上操作、組合和提取功能。

在ACM SIGMOD會議上發表的一篇論文中,研究人員詳細介紹了Northstar的一個新組件,稱為“虛擬數據科學家”的VDS,它可以立即生成機器學習模型,在其數據集中運行預測任務。例如,醫生可以使用該系統來幫助預測哪些患者更可能患有某些疾病,而企業主可能希望預測銷售額。如果使用交互式白板,每個人都可以實時協作。

其目的是通過使復雜的分析變得容易、快速和準確來實現數據科學的易用。

“即使是一個不懂數據科學的咖啡店老板,也應該能夠預測他們未來幾周的銷量,從而計算出要買多少咖啡,”合著者、長期擔任北極星項目負責人的TimKraska說,他是麻省理工學院計算機科學和人工智能實驗室的電氣工程和計算機科學副教授和新數據系統和人工智能實驗室(DSAIL)的創始聯席主任。”在擁有數據科學家的公司里,數據科學家和非專家之間有很多的交流,所以我們也可以把他們帶到一個房間一起進行分析。”

VDS是基于一種日益流行的人工智能技術,稱為自動機器學習(automl),它讓數據科學知識有限的人訓練人工智能模型,以根據其數據集進行預測。目前,該工具在DARPAD3M自動機器學習競賽中處于領先地位。

研究人員開發拖放數據分析工具:北極星

用于分析的“無邊界畫布”

這項新工作建立在麻省理工學院和布朗大學的研究人員多年來在北極星的合作基礎上。四年多以來,研究人員發表了大量論文,詳細介紹了北極星的各個組成部分,包括交互界面、多平臺操作、加速結果和用戶行為研究。

北極星以一個空白的白色界面開始。用戶將數據集上載到系統中,該系統顯示在左側的“數據集”框中。任何數據標簽都將自動填充下面單獨的“屬性”框。還有一個“操作符”框,其中包含各種算法以及新的automl工具。所有數據都存儲在云中并進行分析。

研究人員喜歡在包含重癥監護病房患者信息的公共數據集上演示這個系統。以醫學研究人員為例,他們想檢查某些疾病在某些年齡段的發生情況。它們將模式檢查算法拖放到界面的中間,該算法最初顯示為一個空白框。作為輸入,它們進入標有“血液”、“傳染性”和“代謝”的框中疾病特征。數據集中這些疾病的百分比顯示在框中。然后,他們將“年齡”功能拖到界面中,該界面顯示患者年齡分布的條形圖。在兩個盒子之間畫一條線把它們連在一起。通過圈出年齡范圍,該算法可以立即計算出年齡范圍內三種疾病的共同發生率。

Zgraggen,他是北極星互動界面的關鍵發明者。他說,“這就像一塊巨大的,無邊界的畫布,你可以在那里展示你想要的一切,然后,您可以將事物鏈接在一起,以創建關于您的數據的更復雜的問題。”

近似automl

有了VDS,用戶現在還可以通過讓模型定制適合他們的任務來對數據運行預測分析,例如數據預測、圖像分類或分析復雜的圖形結構。

利用上面的例子,醫學研究人員說,他們希望根據數據集中的所有特征來預測哪些患者可能患有血液病。它們從算法列表中拖放“automl”。它首先會產生一個空白的框,但是有一個“目標”標簽,在這個標簽下他們會刪除“血”功能。系統將自動找到性能最佳的機器學習方法,以標簽形式顯示,并不斷更新準確率百分比。用戶可以隨時停止該過程,優化搜索,并檢查每個模型的錯誤率、結構、計算和其他內容。

研究人員開發拖放數據分析工具:北極星

據研究人員稱,VDS是迄今為止最快的交互式automl工具,部分原因在于其定制的“估算引擎”。該引擎位于界面和云存儲之間。引擎利用自動創建數據集的幾個代表性樣本,這些樣本可以在幾秒鐘內逐步處理,以產生高質量的結果。

“和我的合作者一起,花了兩年時間設計了虛擬數據系統來模仿數據科學家的想法,這意味著它可以根據各種編碼規則,立即確定應該或不應該在某些任務上運行的模型和預處理步驟。它首先從大量可能的機器學習渠道中進行選擇,并在樣本集上運行模擬。在這樣做時,它會記住結果并優化其選擇。在提供快速近似結果后,系統在后端對結果進行優化。但最終的數字通常非常接近第一個近似值。

“對于使用預測器,您不希望等待四個小時來獲得第一個結果。你想知道發生了什么,如果你發現了錯誤,你可以立即糾正它。這在其他系統中通常是不可能的,”克拉斯卡說。事實上,研究人員之前的用戶研究表明,一旦你延遲給用戶結果,他們就會開始失去耐心。

研究人員在300個真實數據集上評估了這個工具。與其他最先進的汽車系統相比,VDS的近似值同樣準確,但生成時間僅為幾秒鐘,比其他工具快得多,后者在幾分鐘到幾小時內運行。

接下來,研究人員希望增加一個功能,提醒用戶潛在的數據偏差或錯誤。例如,為了保護患者隱私,有時研究人員會將醫療數據集標記為0歲(如果他們不知道年齡)和200歲(如果患者超過95歲)的患者。但新手可能不會認識到這樣的錯誤,這可能會誤導他們的分析。

克拉斯卡說:“如果你是一個新用戶,你可能會得到一些認為它們很棒的結果。”但我們必須警告人們,實際上,數據集中可能存在一些異常值,這些異常值可能表示存在問題。”

歡迎關注ATYUN官方公眾號,商務合作及內容投稿請聯系郵箱:[email protected]

發表評論