-
大模型时代“得数据者得天下”,但数据侵权如何界定?
最后更新: 2024-01-04 12:09:41(文/陈济深 编辑/吕栋)
2023年以来,随着生成式AI的爆火,其不仅一定程度上给用户提供了便利,也在不断重塑互联网行业的竞争格局,中外诸多厂商均加入了大模型开发的战局,也间接引发了诸多的版权纠纷。
本周,纽约时报起诉OpenAI和微软违规收集其新闻进行训练一事(纽约时报起诉OpenAI和微软“不劳而获”,要求消灭),再次将大模型开发中涉嫌违规采集数据的问题暴露在公众视野之下。
据不完全统计,今年仅在美国加州,就已经有数十起针对大模型开发商违规使用数据的诉讼。
这些诉讼频发的背后是目前版权法案中,存在大模型对数据极度渴求和数据供应难以迅速增长的矛盾,“先授权后使用”的现有版权法律体系并无法匹配AI时代的数据使用方式,也引发了法律监管的新问题。
大模型训练阶段究竟涉及哪些版权利用行为,这一过程可能存在哪些侵权风险?而全球监管部门面对这个问题,也给出了各自的解答。
数据为王,版权诉讼战频发
在大模型爆炸性发展的2023年,纽约时报起诉OpenAI和微软只不过是贯彻全年版权诉讼大战的一个缩影。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。
4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
6月,国内的教培巨头学而思也被爆出,未经授权利用合作伙伴笔神作文数据进行大模型训练导致的纷争。
据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已经受理了10起,版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权,利用版权作品进行模型训练的案件。
在被告名单上,可以看到各个互联网巨头均在其中,而侵权诉讼频发的背后则是大模型企业对于数据的极度渴求。
有业内人士对观察者网表示:“目前的大模型竞争时代下,相比算法,得数据者得天下。”
一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续。另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB,而相比GPT3的1750亿参数规模,GPT4相传达到了100万亿规模的参数,对于数据的需求呈指数型飙升。
相比需求的爆炸性增长,对于各家大模型企业而言,自身数据和公开数据的供应显然难以满足这种指数型的需求,从互联网和其他友商那“搭便车”成了行业内公开的秘密,也成为了目前版权诉讼频发的根本原因。
为了应对“偷数据”频发的现象,除了通过诉讼手段外,不少互联网企业也利用了技术手段开启防御模式。
目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如X(原名Twitter)限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克对此曾表示,这是对“数据抓取”和“系统操纵”的必要反应。
2023年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。
此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
标签 AI大模型- 责任编辑: 陈济深 
-
净利润“腰斩式”下滑,南航物流IPO募资数十亿买飞机
2024-01-04 11:51 观网财经-金融 -
时隔一年央行重启PSL,释放了什么政策信号?
2024-01-03 16:54 -
苹果仍主导全球高端机市场,余承东称华为要在中国“全面反攻”
2024-01-03 15:10 观网财经-科创 -
外媒紧盯:特斯拉首次被比亚迪超越
2024-01-03 10:46 观察者头条 -
对这项重要资源,八部门联合发布方案
2024-01-03 10:21 -
“爱泼斯坦案”数百份密封文件将公布,克林顿代号“无名氏36”
2024-01-01 14:37 -
长光卫星闯关科创板,经营活动净现金流持续为负
2023-12-31 15:47 -
“大错特错”!阿根廷宣布不加入金砖
2023-12-30 22:49 金砖国家 -
盒马CEO侯毅首谈农业品牌化:一二三产联动是趋势
2023-12-30 18:56 观网财经-互联网 -
1个月开出12家新店,大润发母公司高鑫零售加速多业态布局
2023-12-30 18:54 观网财经-互联网 -
采销固定薪酬翻倍、业绩激励上不封顶,京东重回奔腾年代
2023-12-29 21:26 观网财经-互联网 -
RTX 4090被禁售后,英伟达在中国市场推出“阉割版”
2023-12-29 18:55 观网财经-科创 -
央行:进一步提升境外来华人士的支付便利化
2023-12-29 18:31 观网财经-金融 -
统计局最终核实2022年GDP,比初步核算数减少5483亿元
2023-12-29 16:11 中国经济 -
日企控股的硅片生产商欲登陆A股,目标估值超200亿
2023-12-29 15:11 观网财经-金融 -
招商银行“逆向讨薪”近6000万
2023-12-29 14:59 -
外国人持证可在线开A股账户,头部券商已上线相关功能
2023-12-29 14:52 股市 -
华为:预计今年收入超7000亿,挑战依然严峻
2023-12-29 11:06 观网财经-科创 -
2023年人民币对美元中间价全年累计下跌近1.7%
2023-12-29 11:06 -
“半年没还月供了”,业主发帖:600万买入现挂280万没人要
2023-12-29 09:15 观网财经-房产
相关推荐 -
“我对俄中经济关系的宏伟前景充满信心” 评论 65“美军赖在这儿无所事事,美官员还颐指气使威胁我” 评论 89美宣布对华加征关税,商务部:将采取坚决措施 评论 272绍伊古转岗出人意料,普京“把战时经济精英都用上了” 评论 128“类人速度”新模型来了,AI进入《她》时代? 评论 206最新闻 Hot
-
“太讽刺了!”TikTok内容创作者出手
-
俄新防长:中印可以做到这一点,但欧洲不行
-
性骚扰女生的失德教师欲删除自己的网络词条,法院判决驳回
-
“别学美国对华这种‘坏主意’”
-
“我对俄中经济关系的宏伟前景充满信心”
-
又一位宣布辞职!“作为欧洲犹太人的后裔,我无法保持沉默”
-
“美军赖在这儿无所事事,美官员还颐指气使威胁我”
-
美宣布对华加征关税,商务部:将采取坚决措施
-
“中企创新力令人印象深刻,反华情绪不应干扰市场”
-
布林肯突访,“释放强烈安抚信号”
-
欧盟下黑手后,两家中企被迫退出
-
中国废食用油也被美国盯上了
-
“若与中国作对,对方自然不会好好待你”
-
硬刚!“中企起诉美国防部”
-
“为何美国人当前如此愤怒,而中国人却很冷静?”
-
绍伊古转岗出人意料,普京“把战时经济精英都用上了”
-