OpenAI近日传出使用了YouTube的影音内容来训练GPT系列,文字已经不足以训练语言模型了吗?
YouTube变GPT-4新饲料? Google怎么看?
为了训练AI,据传OpenAI把目标指向了YouTube。
根据《纽约时报》的报导,OpenAI对语言模型训练的素材需求大增,目前网络上的文字内容已经不够,OpenAI利用语音转文字工具「Whisper」转录了100万小时的YouTube影片内容来训练GPT- 4。
Google发言人马特・布莱恩(Matt Bryant)表示对OpenAI的做法一无所知,并且强调禁止「未经授权抓取或下载YouTube内容」。 YouTube执行长尼尔.莫汉(Neal Mohan)日前在《彭博社》受访时提到,目前并没有证据指出OpenAI违规使用YouTube的影音内容,但若属实,的确会违反YouTube平台的使用条款。
尼尔.莫汉提到:「从影片创作者的角度来看,创作者将他们辛苦创作的作品上传到YouTube,一定会有期待受到服务条款的保障。这个服务条款就是:不允许下载文字记录或影片片段内容等。这(指使用YouTube的影音内容来训练模型)明显违反了服务条款。」
也就是说,目前还不能证实OpenAI是否真的利用YouTube来训练AI模型,但似乎也不让人意外。
为什么OpenAI、Meta、Google需要这么多数据?
约翰霍普金斯大学(Johns Hopkins University)理论物理学家贾里德.卡普兰尼(Jared Kaplany),同时也是AI新创公司Anthropic的创始人之一,在2020时发表的论文指出,语言模型读取的资料越多,效能就越好。
也就是说,开发大型语言模型(LLM)最重要的环节就是「喂食」AI模型大量的资料。根据《彭博社》报导指出,随着OpenAI、Google和其他公司竞相开发更强大的人工智慧,他们正在寻求更多的资料内容来训练他们的人工智慧模型,以获得更好的品质。
研究机构Epoch提到,AI公司使用数据的速度比生成数据的速度还要快。 Meta的内部资料中,Meta生成式AI副总裁艾哈迈德.达赫勒(Ahmad Al-Dahle)表示,「除非获得更多数据,否则Meta无法追赶上OpenAI。」
科技巨头为了AI数据,正着手修改服务条款
如何取得大量的资料成为大型语言模型公司的发展命脉。研发AI大型语言模型的公司如OpenAI、Google、Meta等公司正透过更改服务条款来取得现有用户的资料。
《纽约时报》提到,2023年Google曾要求隐私权管理部门扩大使用服务条款,内容是允许Google利用公开的Google文件、Google地图上的餐厅评论等来训练开发中的AI语言模型。 Meta也于2023年讨论收购出版社Simon&Schuster(美国六大出版商之一),以取得长篇作品,并讨论从网络上搜集受版权保护的内容。
而Google也表示,其语言模型使用了「部分YouTube影音内容」进行训练,并取得了影片创作者的许可。
Meta也表示,已经「积极投资」将AI整合到Instagram和Facebook的服务中,并且取得数10亿的公开共享图像和影音来训练模型。
根据《纽约时报》,目前AI使用网络上的资料训练,已经使用超过3兆字,大约是牛津大学博德利图书馆(英国第二大的图书馆)的藏书文字的2倍。
你的资料,终究有一天被AI用!如何保护自己?
而当科技巨头们对数据无限的需求,也引发了许多创作者对于版权问题的疑虑和诉讼。
《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练语言模型。 OpenAI和微软表示,使用这些文章是「合理使用」,是版权法所允许的。
为了解决数据不足的问题,许多语言模型公司正在开发人工智慧生成的文本(合成数据)来训练AI语言模型,除了减少对于版权资料的依赖,也可以开发出更好的AI模型版本,以提升竞争优势。
但此合成数据仍然处于争议阶段。使用合成数据来训练语言模型也可能导致强化语言模型的偏见和错误,OpenAI的研发人员表示,这种方法可能会导致语言模型的故障,因此语言模型公司仍在尝试其他新的做法。
在找到更好的方法之前,想必各家科技巨头还会持续想出获取数据的方式,换个角度说,在「数据量大等于好」的前提没有破解前,数据战争还会持续下去。