将数据用于人工智能时要记住的5件事

数据是新兴的数据驱动和人工智能经济中公司最重要的战略资产之一。需要数据来衡量业务策略的效率并从其运营中汲取见解，还需要训练机器学习算法。获取数据对公司来说不是问题，问题是他们能否获得正确的数据，并能否为他们提供非常理想的竞争优势。

许多公司没有意识到他们坐在一堆糟糕或肮脏的数据上。这些数据包含大量缺失的字段，格式错误，重复大量，或者仅仅是不相关的信息。IBM research估计，美国经济每年不良数据的成本高达3.6万亿美元。尽管如此，许多经理仍然可以肯定，他们坐在数据的金矿上，而实际上他们没有任何价值。

我采访了sergey Zelvenskiy，他是ServiceChannel的一位经验丰富的机器学习工程师，在那里他使用人工智能自动化设施管理流程。当涉及到好的/坏的数据二分法时，我们谈到了常见的误解，以及公司在构建人工智能产品时应该关注什么。

正如Zelvenskiy所说，“公司拥有的数据不一定是坏的，只是解决问题很可能是不完整的。这里有一个鸡和蛋的问题。最初的系统通常是为了收集人为驱动的解决方案所需的数据而构建的，将其转移到人工智能驱动的解决方案可能需要填补空白。虽然人类可以快速评估这些并解决问题，但自动化系统需要自动化的方式来处理数据。"

关注产品。

找到好的数据应该从产品本身开始。为了获得好的数据，公司应该设计出能够为用户贡献数据提供正确激励的产品。良好的可用性和用户体验将鼓励用户贡献有价值的信息。

您可以始终争取用户在环模型，在该模型中，用户必须放弃他们的数据才能使用您产品的功能。这正是Google和Facebook获取大量数据以换取其服务的方式。用户甚至没有意识到他们绝对免费提供数据来支持高级机器学习算法并不断改进软件。

构建出色产品的最佳方法是在收集急需的数据的同时提供迭代改进。正如Zelvenskiy所说: “您可以通过Amazon Alexa的发展看到这一点。它背后的团队意识到了一般语音识别和识别一组简单的预定义命令的能力之间的区别。虽然许多其他公司都在努力采用通用语音识别和维持对话的能力，但Alexa团队专注于一套简单的命令和简单的脚本对话。"

Alexa团队通过以低价运送非常简单的解决方案来做到这一点，并征服了市场。专注于具体的简单用例并完善它赢得了最终的游戏。

针对正确的数据类型。

让我们以想要制造机器人的公司为例，该机器人将自动将图书馆的书籍上架。它有大量关于实际图书内容的数据，它知道作者的名字和这本书出版的年份。但是，实际上，这些数据不足以自动安排书籍。

Therobot只能使用现有数据来找到适合该书的书架。但是，它不知道这本书的尺寸，所以如果这本书能放在书架上，机器人很难说出这本书的尺寸。

该公司从未想过要收集这些信息，因为如果书适合该空间，图书馆工作人员可以轻松地将其删除。现在，该公司需要一个全新的数据集，而它没有。这意味着该公司必须为机器人配备某种评估书本测量值的方法。虽然这不是不可能的，但项目预算和时间表将会改变。

这就是为什么你应该总是问自己，你是否有正确的数据类型，有助于解决问题。

了解局限性。

通常，公司认为所有机器学习工程师都有相同的魔杖，可以解决所有与数据相关的挑战。这与事实相去甚远。回到图书馆的例子，自动评估物理对象的大小和重量的能力将需要一套非常不同的技能和能力。可以训练机器人找到合适的架子的人或系统不同于能够建立测量和称重书籍能力的人或系统。

这种资源计划应该在项目开始时开始，而不是在机器人被摧毁在不适合书架的书堆下时开始。

利用现有的专业知识。

只有在工程师和主题专家团队的辛勤工作完成后，人工智能才能做得更好。智能解决方案的开发需要专家的输入来理解和帮助解释现有数据，并找出它们用来解决问题的原理。

即使是DeepMind的AlphaGo Zero的最新突破，也不是我们完全不需要人类专家的绝对展示。围棋比赛规则定义明确，不能被对手打破。即使机器没有经过人类专家的培训，游戏规则也已编程到代码中，因此它可以与自己对抗以建立技能。构建该软件的工程师在对其进行编程之前就成为了游戏规则的专家。

根据Zelvenskiy的说法，“在AlphaGo Zero的情况下，我们没有专门的专家，因为比赛场地定义得很好，一个人可以在一个晚上学习完整的规则。在现实生活中，工程师几乎无法度过一个晚上，成为供应链，隐私法或涡轮机工程方面的专家。一般来说，人工智能项目要么需要一组定义明确的牢不可破的规则，要么需要一个带标签的数据集。通常，每个都有一点，弄清楚如何组合这个拼图的各个部分仍然需要专家的投入。"

Zelvenskiy补充说: “不要误会我的意思，当一个工程师团队通过获得正确的数据集并学习足够的游戏规则来成功解决难题时，就有成功的故事。然而，我们在这里依赖于生存偏见。"