AI大模型数据被盗第一案？合作伙伴称遭学而思“背刺”

ChatGPT迅速走红，带动起一波AI热潮，大模型、AIGC（人工智能生成内容）等成为当下各个大厂和资本市场最为追捧的两个词。而随着相关领域的推进，浪潮背后隐藏的法律风险也逐渐暴露了出来。

(相关资料图)

6月13日，人工智能辅助写作产品“笔神作文”在其官方公众号发文称，遭到有多年合作关系的“学而思”背刺，指控学而思“盗取了我们的作文库存”，并称4月数据被窃取，学而思5月就公布进行数学大模型-MathGPT 的研发使用，“未免也太过于‘巧合’了”。

学而思方面则发布声明回应称，该公司对笔神作文接口的调用，属于双方合同约定的正常合作范围，对笔神素材内容的使用均符合合同要求，并未用于合同以外的任何用途。

笔神作文在文章中表示，“我们的案件可能将会成为‘AI大模型数据被盗第一案’。”并表达了，要求公开致歉、删除非法获取的数据并中止应用、求偿1元的诉求。

公开资料显示，笔神作文是北京一笔两划科技有限公司开发的智能写作平台，拥有语文作文写前指导、作文批改评测等服务。

笔神作文在文章中称，“在过去笔神作文成立的6年时间里，我们每个月都会收到30万篇作文投稿和超过四十万的点赞。总共积累了超过500万篇作文素材，月批改量超3万篇。”但在4月一个周末，这些数据资源被爬虫爬取了超过两百万次。

文章中透露，笔神作文与学而思是合作关系，“虽然我们的产品已经设置了完备的数据安全机制，然而学而思却利用了我们的这份信任，利用了我们对合作伙伴的接口不设防。”

笔神作文表示，在数据窃取事件发生后，笔神作文找学而思进行求证时，对方直接承认，是他们的算法组在爬取数据并作为己用。

此前，好未来公司 (三体云联公司关联公司，前身学而思) 在5月5日的官方微信公众号发文表示: “学而思正在进行数学大模型-MathGPT 的研发使用，学而思学习机近期将上线一款‘AI助手’，涵盖作文助手......等相关功能。”

笔神作文方面直言，“4月我们的「作文库」数据被窃取，5月‘学而思’的「作文AI助手」新产品就即将上线了，这样‘巧合’未免也太过于‘巧合’了。”

笔神作文还称，团队多次向学而思发出律师函，但对方始终没有实质性答复。

不久后，针对笔神作文的这篇“征讨檄文”，学而思发布声明否认了笔神作文的说法，并称“对方在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机‘作文AI助手’，并主观揣测我方使用其数据用于两款产品的训练和研发，这与事实严重不符”。

学而思从三个方面回应了笔神作文：

1、学而思和笔神作文于2020年12月开始合作，合作协议明确约定：笔神作文为学而思提供“笔神作文范文素材服务接口”，用于学而思相关服务中，每月保底费用包含的调用次数为百万次量级。合作至今，双方一直按照调用量进行正常结算。

2、我方对笔神作文接口的调用，属于双方合同约定的正常合作范围，对笔神素材内容的使用均符合合同要求，并未用于合同以外的任何用途。

3、对方在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机“作文AI助手”，并主观揣测我方使用其数据用于两款产品的训练和研发，这与事实严重不符:

首先，MathGPT是专注于数学领域的自研大模型，没有任何作文相关数据；

其次，“作文AI助手”目前处于开发状态，尚未发布，该服务并未使用笔神作文的任何数据。

在此之前，海外已经发生过有关大模型训练数据的纠纷。

今年1月，海外图片供应商华盖创意（Getty Images）起诉AI绘画工具Stable Diffusion的开发者Stability AI，称其侵犯了版权。华盖创意称，Stability AI“非法”从网站上窃取了数百万张图片。

今年2月，《华尔街日报》的一名记者在网上公开表示，他向ChatGPT索取了一份用来训练它的新闻来源清单，收到的回复列出了20家媒体，但并不清楚OpenAI是否与所列出版商都达成了协议。

当前国内外对于AIGC获取与利用版权作品进行算法训练是否合法仍存在诸多争议。

4月11日，为促进生成式人工智能技术健康发展和规范应用，国家互联网信息办公室起草了《生成式人工智能服务管理办法（征求意见稿）》。其中第七条指出，提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据，应满足不含有侵犯知识产权的内容的要求。

本文系观察者网独家稿件，未经授权，不得转载。

关键词：

环球快资讯丨AI大模型数据被盗第一案？合作伙伴称遭学而思“背刺”

AI大模型数据被盗第一案？合作伙伴称遭学而思“背刺”