毫无疑问,数据量的飙升是AI产业爆发的原因之一。很快我们可以发现,将数据采集、整理、清洗、标注再输送给AI企业用作模型训练,已经成为了一条运行流畅的产业链。
很长一段时间以来,数据服务都处于一种粗放原始的状态之中,甚至出现了一种“数据农场”的说法:数据服务从业者们从各种公开数据集或移动互联网产品中获取数据,以几乎零门槛的形式聘请大量廉价劳动力进行简单的清洗标注工作,例如勾选出一张照片中哪里是天空哪里是大地。后再将这些粗糙处理过的数据一股脑地投入神经网络的黑箱之中。
但现如今,我们已经看到这一现状正在发生变化,AI企业对于数据的应用需求逐渐开始分化,以往一味粗放的处理模式已经不能满足他们的需求,也因此搅动了AI数据服务市场,潮水从奔腾到平静,让泥沙沉淀,清流上涌。这一次,我们采访了云测数据的总经理贾宇航,听他来谈谈,他眼中的数据服务中场战事。
风起云涌的数据服务战场
如果说数据是AI的养料,那么养料的营养含量,自然也决定了AI的强壮程度。算法模型的精准与否、对不同环境的适应性究竟如何等等能力,几乎都来自于原始数据的累积。
先发生变化的,是AI产业。清华大学发布的《2018年中国人工智能发展报告》显示,去年中国人工智能产业市场规模达到237亿元,同比增长67%。据预计2019年一年中,中国人工智能行业的增长率高达75%。
产业规模的爆发式增长,意味着竞争将进一步严峻。面对这种竞争,AI企业对于数据的需求必然发生变化。
比如,企业正在渴望更精细和定制化的数据。
现实场景的环境永远比实验室中的构想更加复杂,想要提供更落地、更具差异化优势的模型,仅仅依靠基于移动互联网数据,或者基于众包用户数据采集的数据显然是不足够的。只有通过定制化数据采集不断打入细节、打入人无我有的场景,才能不断提升技术价值,在洪流中立足。
又比如,企业正在渴望获取更加专业和垂直的数据。
随着AI技术深入到各个细分领域,很多数据标注工作要交由专业人士去做。像是对于医疗影像数据的标注,又比如在工业生产线上对于各种材料的认识。这些都不再像以往那样,召集一群普通人就能完成,相反需要的是行业内专业工作人员进行相关处理。如何满足这些要求,是数据服务企业和AI企业都在思考的问题。
以及企业日益提高的数据安全要求。
除了提出数据隐私等常规数据安全要求以外,有些企业为了突破已有模型的局限,开始配套研制自己的硬件,走向多模态融合的方式;或是像上文所说的,专门采集一些定制化的专业数据。这时这些数据就会成为企业构建自身核心壁垒的发展方向。如此以来,数据安全问题就成了重中之重。
另一方面,对于AI数据服务企业来说也是如此。
AI数据服务企业意识到,越来越多的AI企业对数据准确性、安全性和标注效率提出了更多要求,并且AI企业开始倾向于与大公司合作,对数据服务企业进行尽职调查、设立供应商列表等等。这一切都意味着,数据服务企业必须加强技术能力、促进管理正规化才能应对全新的需求。
中场战事的号角已经吹响,这场战争决定着AI数据服务企业的生死存亡,也是它们力争上游的重要机会。
中场战事改变了什么:AI数据服务产业的下一幕
参与AI的企业越来越多,类型也越来越丰富,其中会有对技术一无所知的小型传统企业,会有扎根于农业、化工等等某一极其细分行业的企业,同时也会有依赖丰富的数据累积对AI技术精益求精的科技巨头。他们对于数据类型的需求也会越来越细化、专业和垂直。在这种趋势之下,数据与算法之间的产业分工会逐渐走向明晰。或许数据企业需要“把手伸得更长”,才能更好的为他们提供服务。
相信在中场战事这一转折点之后,数据服务行业会从单纯的拼劳动力,演变成拼技术、拼专业、拼垂直。
对于数据服务产业来说,这也是一个不断洗牌的过程。产业发展行程过半,真正的竞争才刚刚来临。数据服务产业作为AI的“源头”,在历经优胜劣汰之后,也给予AI发展更强大的动力。