制度缺陷，美国96%受访公司的人工智能项目陷于停顿，难怪封堵

摘要：学过大数据的工程人员都知道，人工智能的核心在机器学习，而机器学习需要大量的真实数据里训练，才能得到尽量接近真实的模型。这次的调查，由大数据公司Alegion代表维度公司去实施，他们访问了227名技术专家，这些专家都参与了相关人工智能和机器学习的项目。

据国际数据中心（IDC）称，预计2019年全球在人工智能（AI）系统上的支出将达到358亿美元。这一增加的支出并不令人惊讶：随着数字化转型计划对企业生存至关重要，企业正在对先进技术进行大量投资。

然而，根据维度公司（Dimensional Research）的一份研究报告表明，在他们统计的10个公司中，这些都是从事人工智能和机器学习的公司，其中8个公司表示其人工智能AI项目已经停滞。96%的受访者表示，他们在机器学习的大数据训练过程中，获取的数据量不足，数据质量低、数据标签错乱、数学模型不准确等等方面都遇到问题。引起这些问题的原因，是来自于人口不足所导致的各种数据发生量缺乏。没有真实数据的支持，这些公司都只能闭门造车，虚拟大批量数据来给机器学习程序进行人工智能训练。其结果可想而知。项目停滞是必然的结果。

这次的调查，由大数据公司Alegion代表维度公司去实施，他们访问了227名技术专家，这些专家都参与了相关人工智能和机器学习的项目。调查发现，这些公司需要由于处理如此巨量的数据，在人工智能和机器学习的资源投入是上很难跟上进度。

Alegion的首席执行官兼联合创始人Nathaniel Gates在报告中说。“要将机器学习的模型应用到生产中，其最大障碍是训练数据的数量和质量”。“这项研究巩固了我们自己的经验，即大数据团队在项目实施过程中，都会构建投资回报率模型来监控项目的进度，出于成本考虑，经常会在内部产生训练数据，而非外部取得的真实数据，最后的结果可想而知。”

学过大数据的工程人员都知道，人工智能的核心在机器学习，而机器学习需要大量的真实数据里训练，才能得到尽量接近真实的模型。学习模式主要有三种：

监督式学习:所有的数据都有标签并且算法从输入数据学习如何预测输出

非监督式学习:所有的数据都是无标签的并且算法从输入数据中学习数据固有的结构

半监督式学习:部分数据是有标签的，但大部分没有标签，是一种监督式和非监督式学习的手段都可以使用的学习方法。

不过，这些的基础，都是在大量真实数据的基础上进行数据训练，才可以完成真正的人工智能AI，才有真正有用的模型，否则只是一条没用的、错漏百出的数学公式而已。根本无法投入实际生产中使用。

在Alegion的访问中发现，这些公司的工程人员在处理大量数据时经常会遇到矛盾，一边想尽量少支出，让人工智能模型接近真实，但一边又需要花钱才能有大量真实数据。工程人员经常被迫走钢丝，省钱自制大量模拟数据去应付数据训练，同时花钱确保系统有足够的性能去处理特定数量的数据。这样才能确保项目能够完工交付。所以就有可笑的一幕：为了应对这些成本与产出的绩效考核挑战，约76%的受访者表示，他们有时会尝试自己标注和注释训练数据。超过半数（63%）的人表示，他们甚至尝试编程来自动建立有标签体系的虚拟数据。更极端的是，71%的团队表示他们会将训练数据和其他机器学习项目外包出去。