機器學習教父Tom Mitchell：從未標記數據中促進機器學習能力

人工智能作爲推動當下科技創新和生產力整體提升的重要戰略性技術,受到世界範圍內的普遍關注,尤其是隨着雲計算和大數據的迅速興起。人工智能迎來了新的發展契機,而算法則是在幕後推動人工智能實現的“核心引擎”,過去六十多年來以大腦模擬、神經處理再以神經網絡爲代表的機器學習,每一次突破都推動着人工智能技術的迭代演進。

當前,人工智能已經在物聯網、智能家居、機器人等多領域中落地應用,與實體經濟深度融合,迎來了發展的大好時期。豐富的應用場景也對算法提出了新需求。自動機器學習、聯邦遷移學習、可解釋深度學習等,一批算法促進新產品的發展,加快社會向智能化不斷躍升。

值此之際,8月30日,由世界人工智能大會組委會主辦,上海交通大學、第四範式承辦的“2019世界人工智能大會國際前沿算法峯會”在上海世博展覽館舉行,作爲此次世界人工智能大會十大主題峯會之一,國際算法峯會聚集超過1000位人工智能研究者和產業界實踐者,共同向底層技術發問,求解能夠推動產業變革的未來算法。

會上,美國卡內基梅隆大學CMU計算機學院院長、機器學習教父、乂學教育-松鼠AI首席AI科學家Tom Mitchell教授以“Learning from Unlabeled Data”爲題,做了精彩的主題報告。

機器學習教父、乂學教育-松鼠AI首席人工智能科學家Tom Mitchell發表演講

Tom Mitchell長期從事機器學習、認知神經學科等研究,曾編寫Machine Learning (《機器學習》)一書,這是人工智能領域最經典的教材之一,他也因此被稱爲機器學習之父。近年,Tom Mitchell開始深度關注AI對教育的應用,2018年11月起任中國AI教育獨角獸公司乂學教育-松鼠AI首席AI科學家,作爲松鼠AI人工智能領域第一負責人,Mitchell 帶領團隊十多位AI科學家和幾百位AI應用工程師以及技術團隊,進行人工智能在智適應教育領域的基礎研究和相關產品的研發應用等。

在此次大會上,Tom Mitchell教授指出,在我們的世界,非標記的數據要比已標記的數據龐大,機器學習非常重要的一點就是學習如何將非標記數據進行分類,來改善機器學習的能力。實現這一目標就要求學習程序必須要具備某種架構,能弄清楚不同的函數及不同的限制關係。如果能對海量未經標註的數據進行分類,不管對機器學習還是自我反思預測錯誤都將非常有意義。

當前,以機器學習爲核心的人工智能技術正在逐步推動各行各業產業升級,機器學習作爲AI的一個重要分支,爲人工智能提供了新的發展機遇。儘管如此、和人類學習的方式相比,機器學習的方法依然非常狹窄。

Tom Mitchell教授着重介紹了一種被稱之爲永無止境的語言學習項目模型——NELL(Never-Ending Language Learner)框架。NELL像人類一樣,學習很多類型的知識,已經具有自我監督的經驗,能利用學到的知識改善後續學習,並通過充分的自我反思來避免學習中的平臺期。

“NELL理念非常簡單,相當於有一位程序員每天24小時不間斷工作,每天程序都會有兩個任務:第一是閱讀提取來自網絡的更多信息,並刪除舊的錯誤信息,以填充不斷增長的知識庫,其中包含對每個信息的信心和來源,比如說水是一種飲料,或者比爾蓋茨創立的微軟;第二,自我進化,學習如何比昨天做得更好,如果任務跟昨天一樣,可以簡單挖掘更多準確的數據。”

NELL在初始階段會有少量分類,如飲料、人、植物、城市等是本體,同時加入關係,比如說人創建了公司,或者飲料是食物產生。除此之外還會輸入樣本,大部分情況下輸入網端的是末標註的數據,未標註數據的信息分類問題也是目前大部分機器學習過程中的問題所在。

Tom Mitchell教授稱,其2010年開始NELL項目,每天24小時運作,直到去年九月,其擁有1.2億三元數據知識庫,並且每一年的邏輯推理能力、學習能力都在提升。而且基於十幾個沒有標註的原始樣本數據,NELL可以擴展已知的關係本體,並能參加一些新型的關係。通過不斷的累計,目前每個知識庫中擁有數億個三元數據庫。比如說楓葉國是加拿大,多倫多是屬於加拿大的一座城市等,像這樣的例子均是程序從網絡當中學習攫取的數據。

在教育領域也是如此,現在已經有幾百萬人在使用人工智能教育系統,積累了許多數據,機器學習可以利用這些數據進一步發展。

“如果機器學習應用在智適應教育當中,應該在每一領域都具備一種功能,去了解學生現在的學習狀態,機器學習就是能夠發現這個功能是什麼,我們可以用機器學習來不斷的修改它,這是機器學習在其中的核心作用。”Mitchell談到。

新的機器學習和人工智能的工具出現後,或許一個機器就可以收集高達十萬名學生的答卷,就可以去分析這些答卷當中學生出錯的規律,在過去,一位老師窮其一生都不可能接觸多達這麼多學生。

Tom Mitchell認爲,目前正在進入AI對如何教育孩子產生重大影響的十年。

因爲AI的進步,研究人員和公司正在不斷更迭新一代系統。例如松鼠AI智適應學習系統運用進化算法、深度神經網絡、貝葉斯網絡、遷移學習、圖論、及其他機器學習等多種AI技術,通過對學生學習過程中多維數據的全方位評估,給與最高效的學習內容、學習路徑、學習節奏的把握以及深度的效果評估,最大化學習效率的提升,進而實現在模擬優秀特級教師的基礎之上,達到超越真人教學的目的。

回到NELL,其可以用擴展kb、OntExt考慮NELL當前本體中的每對類別,在三個步驟中搜索類別對成員之間經常討論的關係的證據、提取兩個類別的已知實例的句子、從提取的句子中通過上下文共生矩陣構建上下文,然後將相關的上下文聚類在一起。每個集羣對應於兩個輸入類別實例之間可能的新關係。

如果嘗試去訓練這兩個函數,即通常所說的協同訓練,只要這些函數有足量多的標註數據,誤差就會接近於零。並且最後能使用這些未標註的數據學習這些函數。

比如,松鼠AI系統成果之中的“非關聯性知識點關聯概率”及“用錯因重構知識地圖”。

在將學科中的知識點進行超納米級拆分的基礎上,非關聯性知識點關聯概率基於知識地圖理論中不僅對知識點建立關聯性,追根溯源還對非關聯性的知識點建立了關聯概率,讓測試效率和學習效率可以分別比同類產品的知識地圖理論模型提高3-10倍。從而提高測試效率和學習效率,更加精準的檢測到孩子的知識薄弱點。

用錯因重構知識地圖就是將每一道題標註不同種的錯因。進一步重構知識地圖。更加精準定位學生錯因,知識薄弱點、精準的給出最適合每一個孩子的學習路徑、從而提高學習效率。

“NELL理念一個非常重要的特點是能夠不斷的學習、不斷的改善,儘管它大部分使用的是網絡上未經標註的數據,但用未標記的數據來訓練機器學習的邏輯,對我以及對團隊其他成員來說都非常驚豔,希望更多的人能參與進來,不斷優化。”

機器學習教父Tom Mitchell：從未標記數據中促進機器學習能力

熱門新聞

週熱門

機器學習教父Tom Mitchell：從未標記數據中促進機器學習能力

金星：重構新氧 從10到N的戰略抉擇

合生元聯合多名權威專家，以愛之名“合”力抗疫

未來集市上線直播帶貨 新技術賦能電商發展

小鵬汽車維權事件後喜訊不斷，2020將有更多的好消息

無限極品牌之思利及人助學圓夢項目

中央空調十大排名 海爾中央空調名列前茅

未來集市｜聚焦社羣新零售

優信公佈Q3財報，全國購營收同比大漲247%，二手車網購成趨勢

小鵬汽車質量如何？4億美元C輪融資順利簽約，獲小米強勢助力

曠視科技國際計算機視覺大會表現耀眼 背後Brain++至關重要

棋逢對手！沃爾沃全新S60與寶馬3系誰更強？

健閤中國區商業模式：全鏈路閉環 提供優質產品組合

以曠視科技爲代表的AI企業，正在讓AI變得更加接地氣

曠視科技發力個人、公共及商業市場IoT 人工智能加快重構科技生活

曠視科技CEO印奇當選中關村企業家顧問委員

熱門新聞

週熱門

金星：重構新氧從10到N的戰略抉擇

未來集市上線直播帶貨新技術賦能電商發展

中央空調十大排名海爾中央空調名列前茅

曠視科技國際計算機視覺大會表現耀眼背後Brain++至關重要

健閤中國區商業模式：全鏈路閉環提供優質產品組合