-
大模型时代“得数据者得天下”,但数据侵权如何界定?
最后更新: 2024-01-04 12:09:41(文/陈济深 编辑/吕栋)
2023年以来,随着生成式AI的爆火,其不仅一定程度上给用户提供了便利,也在不断重塑互联网行业的竞争格局,中外诸多厂商均加入了大模型开发的战局,也间接引发了诸多的版权纠纷。
本周,纽约时报起诉OpenAI和微软违规收集其新闻进行训练一事(纽约时报起诉OpenAI和微软“不劳而获”,要求消灭),再次将大模型开发中涉嫌违规采集数据的问题暴露在公众视野之下。
据不完全统计,今年仅在美国加州,就已经有数十起针对大模型开发商违规使用数据的诉讼。
这些诉讼频发的背后是目前版权法案中,存在大模型对数据极度渴求和数据供应难以迅速增长的矛盾,“先授权后使用”的现有版权法律体系并无法匹配AI时代的数据使用方式,也引发了法律监管的新问题。
大模型训练阶段究竟涉及哪些版权利用行为,这一过程可能存在哪些侵权风险?而全球监管部门面对这个问题,也给出了各自的解答。
数据为王,版权诉讼战频发
在大模型爆炸性发展的2023年,纽约时报起诉OpenAI和微软只不过是贯彻全年版权诉讼大战的一个缩影。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。
4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
6月,国内的教培巨头学而思也被爆出,未经授权利用合作伙伴笔神作文数据进行大模型训练导致的纷争。
据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已经受理了10起,版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权,利用版权作品进行模型训练的案件。
在被告名单上,可以看到各个互联网巨头均在其中,而侵权诉讼频发的背后则是大模型企业对于数据的极度渴求。
有业内人士对观察者网表示:“目前的大模型竞争时代下,相比算法,得数据者得天下。”
一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续。另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB,而相比GPT3的1750亿参数规模,GPT4相传达到了100万亿规模的参数,对于数据的需求呈指数型飙升。
相比需求的爆炸性增长,对于各家大模型企业而言,自身数据和公开数据的供应显然难以满足这种指数型的需求,从互联网和其他友商那“搭便车”成了行业内公开的秘密,也成为了目前版权诉讼频发的根本原因。
为了应对“偷数据”频发的现象,除了通过诉讼手段外,不少互联网企业也利用了技术手段开启防御模式。
目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如X(原名Twitter)限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克对此曾表示,这是对“数据抓取”和“系统操纵”的必要反应。
2023年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。
此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
标签 AI大模型- 责任编辑: 陈济深 
-
净利润“腰斩式”下滑,南航物流IPO募资数十亿买飞机
2024-01-04 11:51 观网财经-金融 -
时隔一年央行重启PSL,释放了什么政策信号?
2024-01-03 16:54 -
苹果仍主导全球高端机市场,余承东称华为要在中国“全面反攻”
2024-01-03 15:10 观网财经-科创 -
外媒紧盯:特斯拉首次被比亚迪超越
2024-01-03 10:46 观察者头条 -
对这项重要资源,八部门联合发布方案
2024-01-03 10:21 -
“爱泼斯坦案”数百份密封文件将公布,克林顿代号“无名氏36”
2024-01-01 14:37 -
长光卫星闯关科创板,经营活动净现金流持续为负
2023-12-31 15:47 -
“大错特错”!阿根廷宣布不加入金砖
2023-12-30 22:49 金砖国家 -
盒马CEO侯毅首谈农业品牌化:一二三产联动是趋势
2023-12-30 18:56 观网财经-互联网 -
1个月开出12家新店,大润发母公司高鑫零售加速多业态布局
2023-12-30 18:54 观网财经-互联网 -
采销固定薪酬翻倍、业绩激励上不封顶,京东重回奔腾年代
2023-12-29 21:26 观网财经-互联网 -
RTX 4090被禁售后,英伟达在中国市场推出“阉割版”
2023-12-29 18:55 观网财经-科创 -
央行:进一步提升境外来华人士的支付便利化
2023-12-29 18:31 观网财经-金融 -
统计局最终核实2022年GDP,比初步核算数减少5483亿元
2023-12-29 16:11 中国经济 -
日企控股的硅片生产商欲登陆A股,目标估值超200亿
2023-12-29 15:11 观网财经-金融 -
招商银行“逆向讨薪”近6000万
2023-12-29 14:59 -
外国人持证可在线开A股账户,头部券商已上线相关功能
2023-12-29 14:52 股市 -
华为:预计今年收入超7000亿,挑战依然严峻
2023-12-29 11:06 观网财经-科创 -
2023年人民币对美元中间价全年累计下跌近1.7%
2023-12-29 11:06 -
“半年没还月供了”,业主发帖:600万买入现挂280万没人要
2023-12-29 09:15 观网财经-房产
相关推荐 -
“投赞成票的欧盟国家,要注意了” 评论 121美国把中资挤走,印度就能钻空子? 评论 99“美国人醒来发现:中国变全球第一,那又如何?” 评论 238冲突一周年,中东距离“全面战争”还有多远? 评论 98“种族灭绝的一年!” 评论 58最新闻 Hot
-
美国把中资挤走,印度就能钻空子?
-
“美国人醒来发现:中国变全球第一,那又如何?”
-
“若中方反制,我们将陷入巨大劣势”
-
印尼媒体敲打他勿自取其辱:东盟峰会上提对抗中国?达咩
-
“如果你们不袭击伊朗这几个目标,美国将提供补偿”
-
冲突一周年,中东距离“全面战争”还有多远?
-
“中国排第1,美国排第53”
-
“种族灭绝的一年!”
-
“以色列陷入更大规模战争,正合他意”
-
杜特尔特否认参选:我都这把年纪了,要我死?
-
“他如今只用笔和纸交流,被扣押人员可能就在他身边”
-
“中国这一庞大建设覆盖率达9成,远超美国”
-
特朗普重返“未遂暗杀”事发地,马斯克登台助阵
-
出生率创新低,“不生孩子的该加税”
-
大众CEO最新表态:与其对华搞惩罚性关税,不如…
-
内塔尼亚胡痛骂马克龙:可耻
-