近期,数据授权交易(如OpenAI与News Corp和Reddit之间的交易)引发了人们对人工智能(AI)对高质量数据需求的关注。在这一背景下,数据DAO(去中心化自治组织)的概念正日益成为关注焦点。这些DAO不仅能够扩展和增强人工智能模型的训练数据,还能为数据贡献者和创建者提供经济激励,从而推动AI技术的进一步发展。
1、AI领域的数据现状
当前,人工智能模型主要依赖公开数据集进行训练,例如Meta的Llama 3就是通过公共来源的15万亿标记进行的。虽然这些方法在快速聚合大量数据方面效果显著,但它们在数据类型选择和收集方法上存在一定的局限性。
首先,确定应收集哪些数据至关重要。数据质量和数量对人工智能的进展至关重要,而目前存在许多所谓的“数据墙”,阻碍了AI模型进一步优化的步伐。
其次,现有模式下的数据收集方式仍然偏向数据收集公司,这导致了数据授权和经济利益错配的问题。最终用户并未从其数据的商业使用中获得应有的经济回报,这可能削弱了数据贡献的积极性。
2、数据DAO的作用
数据DAO提供了一种新的解决方案,可以有效地克服当前数据领域面临的种种难题。通过这些DAO,大量用户可以集成他们的数据贡献,从而创建对AI训练有益的新数据集。
以下是数据DAO可能发挥作用的几个领域示例:
(1)现实世界数据:例如,DEPIN网络通过激励车主和用户共享他们的全球地图数据,创造出对公司具有商业价值的大量数据。
(2)个人健康资料:生物黑客社区可以通过数据DAO组织个人健康实验结果的共享,从而促进医学和生物学的研究进展。
(3)用人类反馈强化学习:RLHF技术允许专家通过提供人类反馈来改进AI系统,通过数据DAO,这些专家可以得到合理的经济回报。
(4)私人数据:通过数据DAO,个人可以安全地管理和分享他们的私人数据,而不必担心隐私问题或未经授权的数据使用。
3、开放问题与挑战
尽管数据DAO有着广阔的应用前景,但其实施仍面临一些关键问题:
(1)激励的扭曲影响:代币激励可能导致参与者行为扭曲,从而影响数据贡献的质量和真实性。
(2)数据测量和奖励:如何准确评估数据贡献的价值以及如何公平地分配奖励,是数据DAO必须面对的核心问题。
(3)新数据递增量:数据DAO能否真正提供超越现有公开数据集的新数据,以及如何管理这些数据的价值和使用,是一个需要深思熟虑的问题。
(4)评估收益机会:数据DAO的成功取决于其能否吸引到多样化的客户群体,以支持稳定的收益流。
4、攻克数据墙
数据DAO代表了一种开放、去中心化的新兴模式,有望为AI行业提供持续稳定的高质量数据源。尽管实施仍面临挑战,但数据DAO的概念已经在推动人工智能技术的进步道路上迈出了重要的一步。
通过创新和技术进步,我们期待看到数据DAO如何继续在数据市场中发挥重要作用,为AI模型的未来发展打开新的可能性。