如今,数据正在大规模地产生,为机器学习提供了绝佳的机会。然而,对于数据科学家和机器学习实践者来说,这些数据的很大一部分仍然是超界的。严格的隐私管理、高昂的成本、长时间的处理都阻碍了数据的分析。
因此,Gartner预估85%的AI项目都将失败,这就是合成数据的好处所在。
合成数据是在详细的算法和仿真的帮助下系统生成的人工数据。它是完全匿名的数据,是真实数据的绝佳替代品,因为它允许组织创建按需培训数据,无论他们想要多大的规模。
人工智能算法人工创建合成数据,但它是在真实数据集上训练的,具有与原始数据相同的属性。由于合成数据与实际数据没有一对一的关联,因此重新识别的机会更少。
因此,数据科学家可以自信地复制和使用数据进行测试和建模,而不会有暴露个人身份信息的风险,也不会与监管机构发生冲突。
有几种方法可以生成合成数据。更简单的选择包括蒙特卡洛模拟和从分布集中绘制数字,但如果数据集很复杂,通常首选生成模型。
生成模型是基于神经网络的,它可以自动从现实数据中找到的模式中学习,并产生与现实数据精确匹配的信息。生成对抗网络(GANs)和变分自编码器(VAEs)是两种常见的生成模型架构。
在GAN模型中,两个神经网络模型(称为生成器和鉴别器)在一个零和游戏中竞争,其中一个网络的收益就是另一个网络的损失。另一方面,变分自编码器是工作在编码器-解码器概念上的无监督模型。
下面是可以用来创建合成数据的工具示例:
在构建机器学习模型时,合成数据比其他类型的数据更具可扩展性、更容易使用、更具有成本效益。
合成数据提供了一些好处,但它也有一定的局限性。例如,一个显著的缺点是,有效地使用合成数据需要高技能的分析师,他们知道如何使用复杂的数据生成器工具。这通常是困难的,因为在就业市场上缺乏合格的人工智能工人。
此外,合成数据只与原始数据一样好,而真实数据往往充满偏见。因此,当神经网络在有偏差的历史数据上训练时,它们反映了相同的偏差。这通常会导致机器学习模型的输出不准确。
合成数据最突出的两个应用案例是自动驾驶汽车和医疗保健。
合成数据生成是创建具有成本效益和高度可伸缩数据的革命性方法。随着人们对合成数据及其各种好处的认识越来越多,越来越多的企业将挖掘其潜力以获得好处。
此外,随着隐私法的收紧,企业将别无选择,只能求助于合成数据。因此,它将继续受到欢迎,直到它完全成为主流。