美媒：AI模型将很快用完网络公开数据

参考消息网6月26日报道 据美国趣味科学网站6月21日报道，一项最新研究发出警告说，最快到2026年，人工智能(AI)系统就可能用完互联网上所有免费知识。

报道称，包括GPT-4和“克劳德3-奥普斯”(Claude 3 Opus)模型在内的AI模型需要借助包含无数单词的网络共享资源来变得更加智能。但最新预测显示，这些AI模型将在2026年至2032年间的某个时刻用完所有网络公开数据。

这意味着科技公司为搭建更好的模型，必须开始寻找其他数据来源。新的手段可能包括主动合成数据，转向质量较低的数据源，或者采用更令人担忧的手段——利用存储消息和电子邮件的服务器中的私人数据。6月4日，一个科研团队在美国预印本文献库发表了这一研究成果。

论文第一作者、美国人工智能时代研究所(Epoch AI)研究员巴勃罗·比利亚洛沃斯对美国趣味科学网站记者说：“假如聊天机器人耗尽所有可用数据，而数据效率没有进一步提升，我预计该领域的发展将陷入相对停滞。模型将只会随着发现新的算法见解和自然产生新的数据而缓慢改进。”

训练数据推动了AI系统的发展——帮助AI模型探索更复杂的模式并植入神经网络。举例来讲，聊天生成预训练转换器(ChatGPT)使用了大约570吉字节(GB)、总计约3000亿个单词的文本数据进行训练，这些数据来自书本、网络文章、维基百科及其他网络资源。

如果用来训练算法的数据不够充足或者质量较低，就可能产生低质量结果。一个很有名的例子是，美国谷歌公司的“双子座”AI曾建议网友吃石头或者给披萨涂胶水。此事背后的原因是“双子座”的部分答案源于美国娱乐社交平台红迪网站(Reddit)和讽刺类新闻平台洋葱网(The Onion)。

为估算互联网有多少文本资源，该科研团队使用了谷歌网页索引，计算出目前的网页总数约为2500亿个，其中每个页面包含约7000字节文本。然后，科研人员利用对互联网协议流量(即网络上的数据流)和在线用户活动的后续分析，预测出可用数据总量的增长情况。

研究结果显示，来自可靠来源的高质量信息最迟将在2032年耗尽，低质量语言数据将在2030年至2050年耗尽。与此同时，图像数据将在2030年至2060年耗尽。

随着数据集的增加，AI模型的神经网络可以如预测般得到提升，这一现象被称为神经缩放定律。于是，能否通过提高模型效率来弥补新数据的缺乏，或者关闭水龙头会不会导致模型升级停止，就成了有待讨论的问题。

不过，比利亚洛沃斯认为，数据短缺似乎不太可能严重妨碍AI模型的未来发展，这是因为企业可能通过多种手段规避这一问题。

比利亚洛沃斯说：“越来越多企业试图使用私人数据训练模型，例如美国元宇宙平台公司即将出台的政策变化。如果这一措施成功落地，并且私人数据与公共网络数据一样有用，那么主要AI企业将有望在2030年以前保持足够多的数据量。”元宇宙平台公司打算未来使用与其平台上的聊天机器人的交互信息来训练其生成式AI。

另一种选择是利用合成数据来喂养饥渴的AI模型——哪怕这种方法过去只在训练游戏、编码和数学系统时被成功使用过。

此外，如果有企业试图在未经许可的情况下获取知识产权或者私人信息，有专家认为这些企业就会面临司法挑战。

澳大利亚麦考瑞大学副教授、技术和知识产权法专家丽塔·马图廖尼特在澳大利亚“对话”网站上撰文写道：“已经有内容创作者抗议企业未经授权使用自己的作品来训练AI模型。有些人起诉了美国微软公司、美国开放人工智能研究中心、英国‘稳定’人工智能公司等企业。”（编译/刘子彦）

责编：张英杰、董悦