-
大模型时代“得数据者得天下”,但数据侵权如何界定?
最后更新: 2024-01-04 12:09:41(文/陈济深 编辑/吕栋)
2023年以来,随着生成式AI的爆火,其不仅一定程度上给用户提供了便利,也在不断重塑互联网行业的竞争格局,中外诸多厂商均加入了大模型开发的战局,也间接引发了诸多的版权纠纷。
本周,纽约时报起诉OpenAI和微软违规收集其新闻进行训练一事(纽约时报起诉OpenAI和微软“不劳而获”,要求消灭),再次将大模型开发中涉嫌违规采集数据的问题暴露在公众视野之下。
据不完全统计,今年仅在美国加州,就已经有数十起针对大模型开发商违规使用数据的诉讼。
这些诉讼频发的背后是目前版权法案中,存在大模型对数据极度渴求和数据供应难以迅速增长的矛盾,“先授权后使用”的现有版权法律体系并无法匹配AI时代的数据使用方式,也引发了法律监管的新问题。
大模型训练阶段究竟涉及哪些版权利用行为,这一过程可能存在哪些侵权风险?而全球监管部门面对这个问题,也给出了各自的解答。
数据为王,版权诉讼战频发
在大模型爆炸性发展的2023年,纽约时报起诉OpenAI和微软只不过是贯彻全年版权诉讼大战的一个缩影。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。
4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
6月,国内的教培巨头学而思也被爆出,未经授权利用合作伙伴笔神作文数据进行大模型训练导致的纷争。
据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已经受理了10起,版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权,利用版权作品进行模型训练的案件。
在被告名单上,可以看到各个互联网巨头均在其中,而侵权诉讼频发的背后则是大模型企业对于数据的极度渴求。
有业内人士对观察者网表示:“目前的大模型竞争时代下,相比算法,得数据者得天下。”
一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续。另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB,而相比GPT3的1750亿参数规模,GPT4相传达到了100万亿规模的参数,对于数据的需求呈指数型飙升。
相比需求的爆炸性增长,对于各家大模型企业而言,自身数据和公开数据的供应显然难以满足这种指数型的需求,从互联网和其他友商那“搭便车”成了行业内公开的秘密,也成为了目前版权诉讼频发的根本原因。
为了应对“偷数据”频发的现象,除了通过诉讼手段外,不少互联网企业也利用了技术手段开启防御模式。
目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如X(原名Twitter)限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克对此曾表示,这是对“数据抓取”和“系统操纵”的必要反应。
2023年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。
此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
标签 AI大模型- 责任编辑: 陈济深 
-
净利润“腰斩式”下滑,南航物流IPO募资数十亿买飞机
2024-01-04 11:51 观网财经-金融 -
时隔一年央行重启PSL,释放了什么政策信号?
2024-01-03 16:54 -
苹果仍主导全球高端机市场,余承东称华为要在中国“全面反攻”
2024-01-03 15:10 观网财经-科创 -
外媒紧盯:特斯拉首次被比亚迪超越
2024-01-03 10:46 观察者头条 -
对这项重要资源,八部门联合发布方案
2024-01-03 10:21 -
“爱泼斯坦案”数百份密封文件将公布,克林顿代号“无名氏36”
2024-01-01 14:37 -
长光卫星闯关科创板,经营活动净现金流持续为负
2023-12-31 15:47 -
“大错特错”!阿根廷宣布不加入金砖
2023-12-30 22:49 金砖国家 -
盒马CEO侯毅首谈农业品牌化:一二三产联动是趋势
2023-12-30 18:56 观网财经-互联网 -
1个月开出12家新店,大润发母公司高鑫零售加速多业态布局
2023-12-30 18:54 观网财经-互联网 -
采销固定薪酬翻倍、业绩激励上不封顶,京东重回奔腾年代
2023-12-29 21:26 观网财经-互联网 -
RTX 4090被禁售后,英伟达在中国市场推出“阉割版”
2023-12-29 18:55 观网财经-科创 -
央行:进一步提升境外来华人士的支付便利化
2023-12-29 18:31 观网财经-金融 -
统计局最终核实2022年GDP,比初步核算数减少5483亿元
2023-12-29 16:11 中国经济 -
日企控股的硅片生产商欲登陆A股,目标估值超200亿
2023-12-29 15:11 观网财经-金融 -
招商银行“逆向讨薪”近6000万
2023-12-29 14:59 -
外国人持证可在线开A股账户,头部券商已上线相关功能
2023-12-29 14:52 股市 -
华为:预计今年收入超7000亿,挑战依然严峻
2023-12-29 11:06 观网财经-科创 -
2023年人民币对美元中间价全年累计下跌近1.7%
2023-12-29 11:06 -
“半年没还月供了”,业主发帖:600万买入现挂280万没人要
2023-12-29 09:15 观网财经-房产
相关推荐 -
“5G、AI和棉花产业变革,帮新疆战胜美国制裁” 评论 30继续升级!威胁停学、惊现“狙击手”、学生占领行政楼 评论 281“中国制造2025已实现86%,证明美国制裁无效” 评论 362“不管枪支教育,却禁掉我谋生工具,这就是我的国家” 评论 192外交部回应布林肯:中方从来没有兴趣,不要疑神疑鬼 评论 331最新闻 Hot
-
CNN最新民调,拜登尴尬了…
-
特朗普与德桑蒂斯“破冰”会面,讨论筹集竞选资金
-
美国宣布以军5支部队“侵犯人权”,但不提制裁
-
美国记者问西方走到尽头是什么?杜金的回答很有意思
-
外媒紧盯福建舰:或马上开始海试
-
继续升级!威胁停学、惊现“狙击手”、学生占领行政楼
-
“23条立法不额外限制媒体批评政府自由,无论有多尖锐”
-
美国终于给他“撑腰”
-
“中国制造2025已实现86%,证明美国制裁无效”
-
印度人“后槽牙都咬碎了”
-
他施压内塔尼亚胡:不进攻拉法,政府就会被推翻
-
他“催”哈马斯尽快接受停火协议:以色列异常慷慨
-
禁了TikTok,谁会得利?看看印度......
-
在这一领域,中国占6成,远超欧洲的19%和美国的9%
-
美报告挑事:欧盟任何惩罚都过于温和,无法阻止中国电动车,除非...
-
所罗门群岛总理索加瓦雷退出新任期竞选
-