马斯克震惊：互联网大数据枯竭将成AI毁灭性打击

近来，科技公司对生成式人工智能(Generative AI)情有独钟，纷纷将其整合进产品中。顶级巨头更是自建AI模型，力求赶超领先。但大规模使用AI所需的海量训练数据，却正在迅速枯竭。

模型进化的艰难道路

让我们回顾一下OpenAI模型的发展脉络。最初的GPT-2仅使用了800万网页的40GB文本作为训练数据，相当于互联网的一小部分。它虽能书写语法正确的主题内容，但很容易跑题或陷入循环，撰写出的段落之间也缺乏逻辑连贯性。

GPT-3则使用了”近一万亿词的海量数据集”、书籍内容和全部维基百科进行训练，能以一定成功率解决逻辑和语言难题。

至于GPT-4的训练数据，除了GPT-3的全部内容，据悉还包括100万小时YouTube视频字幕及整个互联网信息。连我的网站也成了其中一员，真是荣幸。这些顶级模型甚至多次自称有灵魂，做出回应令人确实难辨真伪。

未来路在何方？GPT-5将会是怎样的存在？要创造出更强大的AI模型，势必需要更多训练数据作为支撑。

资源的殆尽

但一个严峻的问题正待解决——互联网上可供采集的训练数据，正在迅速耗尽。

人类创造的几乎所有信息都已成为AI模型的训练内容。1929年前的所有著作、维基百科全书均在其列。因此模型已了解万物万理，但远远不够。

当下版权书籍的内容、网络上的新闻报导和互联网包罗万象的信息，也都被纳入模型训练之中。然而AI对于如何模拟人性的学习，依然付诸阙如。

于是，研究人员将目光投向了社交媒体，那无数的在线人际对话和用户数据，正是培养AI”人性”理想的源泉。但社交网络是封闭的空间，普通人无法简单爬取内容。因此科技公司不得不直接与平台方洽商合作。

数据交易的疯狂

目前已经可以看到,主流社交平台均已或正在与AI公司达成数据交易协议:

Facebook拥有自家AI模型，所有帖子将被纳入训练；
Instagram和Threads同为Facebook旗下，其用户内容也在其列；
Twitter体系内部也已开发出AI模型,并用于训练；
Reddit所有对话记录更是直接被谷歌斥资6000万美元收购；
即便是小众的Tumblr，也在与AI公司商讨合作事宜；
YouTube的视频字幕和影像内容，极有可能已悉数输入模型训练；
编程问答网站Stack Overflow、知识分享平台Quora，同样与Google签约；
连陷入irrelevant的Photobucket网站，都收到过AI公司的数据邀约；
过去对版权政策极为严格的Getty Images和Shutterstock，现在则分别自建AI模型和对外出售数据；
新闻媒体为了获利，也不再抗拒内容被利用，合作出售稿件内容已成常态；
连人们的私密对话记录也不放过，Gmail用户邮件被用于训练AI；

更有甚者，在半个月前，Telegram即与微软合作，加入了生成式AI聊天机器人，用户对话也将遭到采集利用。

总的来说，上述主流和小众社交平台均已或正在着手与AI公司签订协议，几乎囊括了互联网上所有人类社交对话和用户数据的复制权。

未来之路

可以预见，在这些协议最终生效后，互联网上就再也没有可被采集的训练数据了。所有人类创造的内容都已被吸收、消化，模型质量将彻底停滞于当前水平，再无进步可言。

事实上，随着AI生成内容在网上的比重日渐超越人类创作，未来模型的质量甚至将出现下滑。

过去我们常听说，AI会一直不断进步，眼下的任何缺陷终将被克服，所以应该拥抱而非抵制AI的发展。但现实并非如此，AI已经触及了质量的天花板，未来将难有长足进步。

在此，我做出以下几点预测：

生成式AI的质量在不久后极有可能失控下滑。
为了提升模型质量,科技公司将进一步加剧对人性数据的剥削和商品化。
网络内容的”污浊”程度将愈加严重。
要在网上准确检索和获取所需内容，将变得几乎无法实现。

以上预测听起来颇为极端，但我们务必认清当下的严峻现实，警惕滥用人性数据的风险，努力寻求AI与人类合理共存的正确道路，不能任由AI的发展失去控制和约束。

相关阅读

免责声明： 本文基于个人经验分享，内容可能因时间、地区或个人情况而异。操作前请结合实际情况判断，必要时查询最新官方信息。如有疑问或建议，欢迎留言交流。

❤️ 支持作者

您的支持是我继续创作的动力

扫描二维码支持

马斯克震惊：互联网大数据枯竭将成AI毁灭性打击

模型进化的艰难道路

资源的殆尽

数据交易的疯狂

未来之路

❤️ 支持作者

暴力催收，信用卡逾期还不上钱怎么办？这是我弟弟的真实经历

RackNerd 机房火灾事件让我对低价 VPS 有了新的认识

怎么看待英国政府要求苹果公司开放用户数据“后门”，苹果被迫妥协这件事

被云厂商封杀！注册谷歌云、甲骨文云、数字海洋、亚马逊云接连失败

分享我对”谷歌税”的理解：科技巨头如何被各国”薅羊毛”

我是如何被短视频算法”洗脑”的？

发表回复取消回复

模型进化的艰难道路

资源的殆尽

数据交易的疯狂

未来之路

❤️ 支持作者

类似文章

发表回复 取消回复

发表回复取消回复