制度缺陷，美國96%受訪公司的人工智能項目陷於停頓，難怪封堵

摘要：學過大數據的工程人員都知道，人工智能的核心在機器學習，而機器學習需要大量的真實數據裏訓練，才能得到儘量接近真實的模型。這次的調查，由大數據公司Alegion代表維度公司去實施，他們訪問了227名技術專家，這些專家都參與了相關人工智能和機器學習的項目。

據國際數據中心（IDC）稱，預計2019年全球在人工智能（AI）系統上的支出將達到358億美元。這一增加的支出並不令人驚訝：隨着數字化轉型計劃對企業生存至關重要，企業正在對先進技術進行大量投資。

然而，根據維度公司（Dimensional Research）的一份研究報告表明，在他們統計的10個公司中，這些都是從事人工智能和機器學習的公司，其中8個公司表示其人工智能AI項目已經停滯。96%的受訪者表示，他們在機器學習的大數據訓練過程中，獲取的數據量不足，數據質量低、數據標籤錯亂、數學模型不準確等等方面都遇到問題。引起這些問題的原因，是來自於人口不足所導致的各種數據發生量缺乏。沒有真實數據的支持，這些公司都只能閉門造車，虛擬大批量數據來給機器學習程序進行人工智能訓練。其結果可想而知。項目停滯是必然的結果。

這次的調查，由大數據公司Alegion代表維度公司去實施，他們訪問了227名技術專家，這些專家都參與了相關人工智能和機器學習的項目。調查發現，這些公司需要由於處理如此巨量的數據，在人工智能和機器學習的資源投入是上很難跟上進度。

Alegion的首席執行官兼聯合創始人Nathaniel Gates在報告中說。“要將機器學習的模型應用到生產中，其最大障礙是訓練數據的數量和質量”。“這項研究鞏固了我們自己的經驗，即大數據團隊在項目實施過程中，都會構建投資回報率模型來監控項目的進度，出於成本考慮，經常會在內部產生訓練數據，而非外部取得的真實數據，最後的結果可想而知。”

學過大數據的工程人員都知道，人工智能的核心在機器學習，而機器學習需要大量的真實數據裏訓練，才能得到儘量接近真實的模型。學習模式主要有三種：

監督式學習:所有的數據都有標籤並且算法從輸入數據學習如何預測輸出

非監督式學習:所有的數據都是無標籤的並且算法從輸入數據中學習數據固有的結構

半監督式學習:部分數據是有標籤的，但大部分沒有標籤，是一種監督式和非監督式學習的手段都可以使用的學習方法。

不過，這些的基礎，都是在大量真實數據的基礎上進行數據訓練，纔可以完成真正的人工智能AI，纔有真正有用的模型，否則只是一條沒用的、錯漏百出的數學公式而已。根本無法投入實際生產中使用。

在Alegion的訪問中發現，這些公司的工程人員在處理大量數據時經常會遇到矛盾，一邊想盡量少支出，讓人工智能模型接近真實，但一邊又需要花錢纔能有大量真實數據。工程人員經常被迫走鋼絲，省錢自制大量模擬數據去應付數據訓練，同時花錢確保系統有足夠的性能去處理特定數量的數據。這樣才能確保項目能夠完工交付。所以就有可笑的一幕：爲了應對這些成本與產出的績效考覈挑戰，約76%的受訪者表示，他們有時會嘗試自己標註和註釋訓練數據。超過半數（63%）的人表示，他們甚至嘗試編程來自動建立有標籤體系的虛擬數據。更極端的是，71%的團隊表示他們會將訓練數據和其他機器學習項目外包出去。