大模型的进化路径之一可以来自模型不变
通过改进训练数据质量,
提升模型效果,
这样高品质数据集,
很大程度上决定了ai大模型的品质,
但他们遇到的问题就是这些数据大量来自爬虫,
自己去爬到的公开信息,
首先版权是个大问题,
其次没版权内容可能质量并不高,
而质量高的内容未来可能将面临付费,
海外大模型用来训练的数据集,
open ai为例,
公开的免费的内容主要来自百科书籍期刊,
这些东西质量高,
目前还没有收费,
但以后会不会收费存疑,
open ai的另外一部分训练数据, 以及common
这种类似网页快照合集的抓取,
数据集等这些东西对chat gpt也非常重要,
因为这些资源里你能看到人类的情绪,
比如有几个点赞,
而它们的存在本身一定有成本,
质量越高或者稀缺性越强,
他们的成本事实上就越高,
而他们很可能马上就要收费了,
2023年4月, 训练ai聊天机器人的公司收取数据使用费,
现在ai的时代到来了,
如何获取不侵权的高质量的低成本的数据,
甚至可能成为未来ai成败关键的时候,
数据可能将成为人工智能大时代,
硬件之外最重要的基石,
数据的价值终于在可以预见的未来凸显出来了,
而且非常有意思的一件事是,
就是数据财政,
基于政府拥有的数据资产的所有权来获得收入,
一方面政府本身拥有大量数据,
这正是我们本土大模型所需要的,
而和土地出让拉动了地方经济一样,
对数据的探索,
很有可能也将提升经济发展的质量,
2023年5月14日的新闻联播,
有这么一段话,
重庆相关部门在打通破解数据壁垒,
进行数据共享探索,
高效利用好数据资产,
而我们就此可以小小的畅想一下,
未来可能将是一个人工智能时代,
数据则是人工智能大模型,
甚至国家之间竞争的关键,
无论政府本身的数据,
还是有可能由官方交易平台,
把握安全和质量来交易的平台,
企业媒体大数据,
都有可能前所未有的推动人工智能本身的发展,
和整个社会生产效率的提高,
甚至成为大国竞争的一部分。