生成式AI背景下著作权侵权样态及其风险治理

对生成式AI技术的运行原理、侵权样态进行全面的分析,从数据输入、数据分析和数据输出三方面,提出平衡生成式AI技术与原版权人之间利益的措施。

生成式AI背景下著作权侵权样态及其风险治理
出处:网络安全与数据治理

人工智能作为经济发展的新引擎,将成为新一轮产业变革的核心驱动力,并进一步释放历次科技革命和产业变革积蓄的巨大能量。随着以GPT为首的生成式AI技术的逐渐成熟,利用该技术所生成的内容已然流入到了市场当中。技术的发展永远都是与风险相伴的,在生成式AI技术被人类应用到各个领域的同时,与之有关的著作权风险问题也引起了越来越多的学者重视,但有关生成式人工智能的著作权侵权问题却鲜少有人讨论。相关立法的缺失以及相关学术研究的不足,使得对于生成式AI技术挑战背景下著作权侵权问题的研究变得非常有价值。

为了平衡作品的原著作权人获得预期收益与保障生成式AI技术稳步发展之间的利益,笔者将从以下三个部分对生成式AI技术挑战背景下著作权侵权风险问题进行全面分析:首先,将对生成式AI技术的运行原理进行解析,阐明其对现存著作权制度的冲击;其次,对生成式AI技术的侵权样态进行全面的分析;最后,从数据输入、数据分析和数据输出三方面,提出平衡生成式AI技术与原版权人之间利益的措施。

1 生成式AI技术及其对创作者的影响

1.1 生成式AI技术及其运行原理

生成式AI不同于以往的专家系统那样只进行简单的系统分析或者只关注现有数据,而是可以生成新颖内容的人工智能。生成式AI属于目前最先进的人工智能之一,以前的人工智能专家系统一般会包含一个知识库和一个基于if-else规则数据库生成内容的推理引擎,而现在的生成式AI会包含一个能够在语料库或数据集上训练的,并且将输入信息映射到更高维空间的鉴别器或变换器模型,以及一个能够在每次新的试验甚至相同的提示下生成随机行为的生成器,可以执行无监督、半监督或监督学习。

通常来说,生成式AI技术的工作原理包括三个阶段,即数据采集、数据分析、数据输出。而在数据采集阶段,输入的数据越多,越有利于人工智能在训练阶段对数据信息特征的提取,以及对初始模型的完善;数据分析阶段,也叫机器学习阶段,生成式AI技术与以往需要依靠人力提取数据特征的专家系统不同,在此环节,生成式AI更多依靠的是“深度学习”,通过对海量信息数据的原始特征进行组合,形成更高层级的属性类别或特征,如此便利于算法模型的构建和输出数据的最优化;输出阶段,则是以前两个阶段为基础,在算法模型不断优化后,最后输出相应的内容,也就是人们口中的生成物。

1.2 生成式AI技术对著作权制度的冲击

以往的科学技术对著作权的影响主要作用于作品的传播权问题中,会对作品的存在形式、权利类型和权利限制造成影响。而如今的生成式AI技术不仅仅影响到创作者的传播权,而且已经对著作权人的复制权、改编权和汇编权均造成了损害风险。著作权法的目的在于保障著作权人对作品的专有权,保护其人身和财产权益的同时,又通过对优秀作品的传播使社会大众也能够学习到作品内容,促进文化市场的繁荣发展。但上述问题的产生,打破了个体与共体之间的利益平衡,阻碍了著作权的发展。

就生成式AI技术而言,其著作权侵权样态若无法确定,专门的监督管理者若未明晰,那么对于著作权利人的作品在未经其许可的情况下,极有可能会被用于AI的深度学习,亦或超出著作权人的许可范围而被AI控制者所使用。由于相关立法的缺失,对著作权人的权利救济便难以实现,其经济利益将会受到损失,挫伤其创作的积极性。对于社会公众而言,虽然生成式AI技术能在短期内能生成大量的作品内容,但从长远上看,生成式AI技术所生成的作品是通过机械式的算法不断优化推演而来的,该过程缺乏人类所特有的主观能动性,没有人类感情的投入,这样的生成内容,尤其是在文化艺术领域,很难与社会大众产生情感上的共鸣,而对于社会大众的精神需求更是难以满足,从而形成恶性循环:受生成式AI技术的影响,缺乏人类感情的机械式的生成内容会不断增多,而人工智能在吸取这些“缺陷”作品数据的基础上进行“再创作”之后,又返回来以同样的方式再次影响人类文化市场。

2 生成式AI技术挑战背景下著作权侵权样态

2.1 生成式AI技术挑战背景下对著作权的侵权行为

我国《中华人民共和国著作权法》(以下简称《著作权法》)第10条第2款第(五)项明确规定了数字化他人作品属于复制行为,因此在数据输入阶段,对他人作品直接数字化的行为,当然地属于侵权行为。生成式AI虽然属于目前最先进的AI技术之一,但其仍然不属于强人工智能的范畴,其算法程序并不能与人类一样依靠自主阅读的方式来获取所需要的信息,仍然需要依赖数据的输入,而数据获取的来源一般包括三种:直接通过开放的数据共享平台获取数据;以交易的方式,购买他人的数据信息库来获取数据;通过“爬虫协议”等其他方式获取数据。通过以上三种途径,将所输入的信息转化为算法程序可以理解的数据格式,一般会包括对非数字作品的数字化以及对数字化作品的直接复制,传感器在数据自动收集过程中无法准确分辨所有海量数据的权利状态,在涉及他人享有著作权的作品,且未获得授权时,必然会造成对著作权人复制权侵犯的风险。

我国《著作权法》并没有哪一个条款明确规定了演绎权,演绎权只是在学理上,学者对改编权、翻译权和汇编权的总称。在生成式AI技术的数据分析阶段,根据是否对输入的数据进行了标注,可以将数据训练(或者叫机器学习)分为监督、半监督、无监督学习。虽然生成式AI所使用的生成式对抗网络(GANs)属于无监督学习,不涉及对数据的标注,在数据分析阶段也就不会侵犯著作权人的改编权,但无论是监督、半监督还是无监督学习,均涉及对数据的选择、整理和汇总,可以将其视为一种“汇编行为”。

2.2 生成式AI技术挑战背景下著作权侵权的损害后果

2.2.1 确定受损主体

在传统的著作权侵权案件中,侵权客体一般都是单一且确定的现实作品。在司法实践中,对于侵权行为的认定,会将受著作权保护作品和侵权作品在独创性上进行比对,如果侵权作品在未获得版权人许可的前提下擅自使用了该版权作品的独创性,那么该侵权行为便成立。然而,生成式AI时代背景下,人工智能所侵犯的著作权客体具有一定的特殊性:生成式AI在进行“创作”过程中,其侵犯的客体不一定是某一个著作权人的单一作品,也可能是多个著作权人的单一作品或多个著作权人的作品合集。生成式AI在数据分析阶段,需要对海量的信息数据进行标注,并进行学习,提取其特征,很显然这并不是对某个作者的单一作品进行的简单的复制,而是对多个作者或者某个作者作品集中具备独创性的作品进行的侵权性使用。生成式AI所侵犯的著作权客体的特殊性直接增加了著作权人在权利受到侵害时提取证据的难度,而法官在认定侵权的过程中,认定程序也变得更加繁琐,增加了受损主体的认定难度。

2.2.2 界定受损权利

对复制权的侵权界定。生成式AI在数据分析阶段的“深度学习”之前,需要通过前文所述的三种途径获取大量的信息,并将这些信息进行数字化处理,从而转化为生成式AI能够理解的标准格式。这三种方式在数据输入阶段均是以全文复制或原文再现的方式,这些数据输入行为均属于《著作权法》第10条第2款第(五)项的复制行为,在未经得著作权人同意的情况下,则会对其复制权造成侵犯。在数据输出阶段,依据“接触+实质性相似”的侵权规则,若生成式AI所产生的生成物与其输入的数据存在实质性相似,则同样会侵犯著作权人的复制权。

对侵犯改编权和汇编权的界定。生成式AI所产生的的生成物无非会有三种:生成物与输入的原作品完全不同;生成物与输入的原作品实质性相似;生成物是在保留输入作品的表达方式基础之上,兼具独创性的新作品。这三种生成物中,第一种当然地不构成著作权侵权;第二种依照“思想/表达二分法”,若实质性相似的是“表达”,则构成复制权侵权;第三种则很明显侵犯了原作品的改编权。有学者认为将第三种生成物视为对改编权的侵犯并不准确,其认为人工智能“不是实质性地以某个作品为基础所进行的再创作,不是对某个作品的演绎”。事实上从已有的生成式AI创作实例来看,生成式AI均是在已有的作品基础上生成的新作品,若被学习和模仿的作品处于《著作权法》的保护期限内,则构成对他人作品改编权的侵犯。有的学者将数据分析阶段的“深度学习”分为“表达型机器学习”和“非表达型机器学习”,若生成物具备独创性,则“表达型机器学习”期间的汇编行为就会对原作品的汇编权构成侵犯。

我国现行的《著作权法》并没有对传播权的权利内容进行明确的法条规定,在学理上认为,传播权是指不依赖有形载体,而以无形的方式进行传播的过程中所产生的权利总称。传播权一般包括信息网络传播权、表演权、放映权和广播权,生成式AI技术在输出阶段,依据输出的方式和是否即时发布的不同,会分别对原作品的信息网络传播权(通过网络延时发布)和作品的广播权(通过网络即时发布)造成侵权风险。

2.3 生成式AI技术挑战背景下著作权侵权的因果关系

传统学说上,对于侵权责任的因果关系认定有条件说和原因说,相当因果关系理论、近因理论和法规目的等多种区分。笔者认为,鉴于生成式AI侵权行为的复杂性、责任后果的隐蔽性、责任主体的多样性和概率性,以相当因果关系理论作为判断生成式AI著作权侵权的主要标准较为合适,且我国民法在因果关系的认定上,以“相当因果关系”作为通说。

相当因果关系理论是由德国心理学家冯·克里斯于19世纪80年代首创,他认为作为损害的相当原因,必须满足:(1)属于损害发生的必要条件;(2)极大地增加损害发生的客观盖然性。对于第一个条件,应用到生成式AI技术著作权侵权中,可以理解为生成式AI技术的应用行为与版权作品著作者的复制权、翻译权、改编权、汇编权受损之间,形成了事实上的因果关系。对于第二个条件,应用到本文中,则应理解为生成式AI技术的著作权侵权行为增加了著作权受损发生的客观盖然性。

因此,在生成式AI技术属于版权人著作权受侵犯的必要要件,且生成式AI技术的著作权侵权行为极大地增加了原版权人著作权受损发生的客观盖然性时,可以认定生成式AI的“创作”行为与原版权人著作权受损之间存在因果关系。对于因果关系的证明责任问题,由于生成式AI侵权主体的复杂性,不同的侵权主体其归责原则亦有所差别,相应的因果关系证明责任也有所不同(详见下节关于过错的认定)。

2.4 生成式AI技术挑战背景下著作权侵权的过错

与生成式AI著作权侵权行为的判断不同,对于生成式AI技术挑战背景下著作权侵权的过错判断,需要依托数据输出阶段的生成物具体属性而展开,根据输出结果的不同分为直接侵权和间接侵权两种。笔者将坚持人本主义面向,以生成式AI的生成物与原来的版权作品存在实质性相似为前提,对设计者和控制者的著作权侵权过错加以分析。

2.4.1 设计者的过错推定

“将规制重点从损害赔偿转向侵权预防,是人们应对风险社会的经验结晶。”生成式AI的设计者,作为著作权侵权预防的第一环,理应对生成式AI负有“防抄袭设计义务”,该义务的思想设计来源于“隐私设计”概念。在信息数据利用与数据保护之间的冲突不断加剧的当今社会,有学者提出可以让网络产品的设计者在其所服务的信息系统中,将隐私保护条款的要求嵌入其中,是隐私保护作为项目设计与适用过程中不可缺少的组成部分。虽然其制度目的与“防抄袭义务”有所不同,但“隐私设计”制度的落实,对于生成式AI设计者的“防抄袭设计义务”的设定,无疑具有很强的借鉴意味,这不仅符合现行《著作权法》的立法目的,以及现实的著作权保护需求,在技术实现上也具备可行性。生成式AI的设计者若无法证明其在设计过程中在机器中嵌入了最先进的防抄袭设计,则认定其存在过错。

2.4.2 控制者的过错推定

在生成式AI的运行层面,生成式AI的控制者对生成式AI的“创作”行为具有启动和暂停的权利,并对其使用的时间长短、使用的方式和场景都具有直接的决定作用。因此,基于致险可能性和权责一致性的理念,使生成式AI的控制者肩负注意义务具有一定的必要性。《中华人民共和国网络安全法》(以下简称《网络安全法》)第37条和第43条对于网络经营者和个人用户之间的权利义务规定,与生成式AI的控制者和设计者之间的注意义务具备一定的相似性:生成式AI的控制者在发现设计者未尽到“防抄袭设计义务”,以至于大量侵犯著作权的生成物被生产出来时,应当履行注意义务,及时按下“暂停键”,停止对侵权生成物的生产;在原版权著作权人发现生成式AI的生成物侵犯其著作权并予以通知后,根据侵权作品的相似性和对侵权作品删除的及时性,来判断控制者是否尽到了注意义务,该注意义务应由控制者加以证明,若不能证明,则推定其有过错。

3 生成式AI技术挑战背景下著作权侵权风险治理对策

规制生成式AI技术的著作权侵权风险,对于平衡社会公众利益和著作权人个人利益,激励著作权人创作,促进生成式AI技术稳定发展具有重要意义。通过对生成式AI技术的侵权样态进行分析之后,可以从数据输入、数据分析和数据输出三个阶段对生成式AI技术的著作权侵权风险加以治理。

3.1 数据输入阶段的侵权风险应对:完善法定许可制度

在数据输入阶段,应对生成式AI著作权侵权最方便快捷的方式就是利用现有的《著作权法》制度,建立合法获取信息数据的途径。若生成式AI的控制者能够与原版权作品的著作权人协商一致,给付一定的对价,获取著作权人的授权许可,这自然是双赢的方法。还有学者提议,增加 “计算机信息分析” 的合理使用条款或扩大合理使用兜底条款的适用,将人工智能使用作品的行为认定为合理使用。虽然我国《著作权法》第24条第2款规定了12种合理使用的具体类型,以及一个兜底条款,且并未明确规定以商业性为目的的使用不能作为其构成要件,但在我国,无论是业界还是学界,均认为合理使用制度内含非商业性使用之构成要件。生成式AI的控制者多为大型互联网公司,其使用生成式AI多以盈利为目的,具有商业性质,纵然控制者或使用者为个人,那也属于少数部分。将其纳入到合理使用规则中,会打破公共利益与个人利益之间的固有平衡机制,损害原著作权人的预期利益,不利于《著作权法》激励作用的发挥。

欧洲议会在其2017有关机器人问题报中指出,人工智能企业将其一部分税收用以补偿文化创作者具有一定的必要性。将数据输入阶段纳入到法定许可范畴中,对于平衡著作权人、社会大众和互联网公司之间的利益,以及避免以损害著作权人的利益为代价,来推动产业发展的情况出现均具有重要意义。我国现行《著作权法》中所规定的的四种法定许可类型并不包括生成式AI控制者对于海量数据的输入,因此,在将来的《著作权法》修订中,需要将此类型列入其中。根据前文对侵权样态的分析可知,受到侵权风险的主体众多,若控制者对其进行一一联系,将增加巨大的时间和金钱成本。为了解决此问题,就需要借助集体管理组织和区块链技术,结合区块链技术去中心化、匿名性、独立性、可信赖的特点,当生成式AI技术一旦使用了原著作权人作品的主要内容,符合第二部分侵权样态的,区块链平台将会详细、完整地记录在分布式账本上,之后由集体管理组织代为收取报酬。而关于法定许可的费率,则可以借鉴日本的动态费率标准。

3.2 数据分析阶段的侵权风险应对:加强行政监管

著作权虽然属于公民民事权利中的私权,但同时还兼具着促进社会主义文化繁荣发展的公益目标。科学技术本身就是把双刃剑,对其不加合理的利用,便会对公民个人的合法权益造成损害。2017年国务院在其发布的《国务院关于印发新一代人工智能发展规划的通知》中提到,对于人工智能发展,不仅要“建立安全监管和评估体系”,还要“实现从设计到人工智能应用的全流程监管”。因此,加强设计者与控制者个人监管的同时,还应强化对生成式AI技术数据分析阶段的行政监管。

在监管体系上,可以实行分层次的监管。在监管对象方面,对于那些相较于其他模型,具有更高的著作权侵权风险的,应当成为行政监管的重点关注对象,监管者应主动采取强度较大的监管措施,例如要求其使用主体定期发布自检报告、查封和扣押侵权机器等。而对于那些风险较小的生成式AI模型所在的互联网公司,则采取设计者、控制者自主履行义务为主,行政监管为辅的监管政策;在实施监管的措施方面,一方面,严格落实《网络安全法》第24条关于网络实名制的规定,从而方便在出现著作权侵权的情况下,主管机关可以迅速查明侵权主体的真实信息。另一方面,要及时制定有关互联网平台的著作权管理规则,依据侵权主体的侵权次数和数量,给予其不同程度的处罚,对严重者实施惩罚性赔偿措施;在监管的媒介方面,鼓励技术人员针对兼具AI模型评估、备案、伦理规范审核等多种功能的监管工具的研发。促使该AI模型的评估功能向可评估算法的潜在风险和预期的社会影响、备案功能向增强对著作权侵权风险的预防、伦理规范审核功能向完善生成式AI所在企业的内部管理三个方向不断发展。

3.3 数据输出阶段的侵权风险应对:优化平台治理

仅从单一平台内部的技术管理措施来看,利用生成式AI技术所生成的内容在大型互联网平台上进行传播时,对其传播内容的著作权侵权风险的预防,可以借鉴YouTube 平台的版权监视(Copyright Watch)和内容识别(Content Id)技术手段,通过此种算法过滤手段筛查出有可能侵犯他人著作权的内容,并对其做进一步处理。但通常互联网平台的管理能力与技术水平是成正比的关系。对于不具备算法过滤能力的互联网平台,监管者可以通过实施《信息网络传播权保护条例》第14条规定的“避风港原则”,即“通知+删除”的规则,来促进互联网平台的合规运营。待版权监视和内容识别技术比较成熟后,将该技术的使用作为互联网平台的法定义务,这将是互联网平台和生成式AI技术发展道路上的必经之路。从多个互联网平台的交互式合作来看,一方面不同平台的生成式AI模型之间可以通过相互授权的方式来提高工作效率。另一方面,生成式AI技术的控制者可以通过与互联网平台签署授权协议,从源头上致力于内容传播的合法化。各个网络平台是使用者对其利用生成式AI技术所生成的内容进行传播的主要途径,在完善法定许可制度、加强行政监管制度、设定控制人和AI设计人的“防抄袭设计义务”和及时制止侵权结果发生的注意义务之外,具备著作权自治能力的网络平台,也应当率先从“治理受体”向“治理主体”转变。

4 结论

在著作权保护体系中,对于侵权行为的界定一直处于核心地位,具备着保护著作权人的合法权益、保障公共利益与个人利益之间的平衡、激励创作者创作的重要功能。在人工智能技术迅速发展的今天,法律的滞后性愈发凸显,因此立法者要紧跟时代发展的步伐,主动关注人工智能发展的最新动向,采纳司法实践中的有益经验,杜绝“冥想式的法学研发”,并立足本国国情,参考国外立法文本,完善法定许可制度,制定针对人工智能、具有实践意义且与国际接轨的法律;理论学者则应当对生成式人工智能著作权侵权问题给予足够的关注,针对司法实务中的具体问题做积极探讨,实现百家争鸣,进而推动实务界的发展;司法实务者则应当在现有法律框架下灵活适用现有法律,并加强监管,对相关案件实施公平合理的判决,作为对新兴技术所产生的的法律风险的回应;产业界则应当在法律规定的框架下,以利用生成式AI技术创造出质量高、数量足、满足社会大众需求的生成物为目标,同时积极配合监管机关的工作,加强符合《著作权法》的AI模型开发,提升自身的算法过滤能力。如此,才能充分发挥《著作权法》著作权保护、激励创作者创作和促进社会主义文化市场繁荣发展的重要作用,进而推动我国不断向人工智能强国迈进。

本文来源与作者信息:

原文刊发于《网络安全与数据治理》2023年第9期。

赵宏伟(1994-),男,新疆师范大学政法学院硕士,主要研究方向:数据法学、互联网法学。茹克娅·霍加(1970-),女,硕士,新疆师范大学政法学院副教授,主要研究方向:法制教育、民商法学。

摘要:生成式AI作为最先进科学技术的代表大跨步走进人们生活的同时,也带来了著作权侵权风险问题。生成式AI不同于以往的专家系统那样只进行简单的系统分析或者只关注现有数据,而是可以生成新颖内容的人工智能。该技术的产生对现行的著作权制度造成了冲击,对生成式AI技术的侵权样态分析迫在眉睫。通过对生成式AI技术挑战背景下著作权侵权样态进行分析,从而提出以下三条建议:面对数据输入阶段的侵权风险,应完善法定许可制度;面对数据分析阶段的侵权风险,要加强行政监管;面对数据输出阶段的侵权风险,要优化平台治理。

关键词:生成式AI;著作权侵权;侵权样态;破解

要目:

0 引言
1 生成式AI技术及其对创作者的影响
2 生成式AI技术挑战背景下著作权侵权样态
3 生成式AI技术挑战背景下著作权侵权风险治理对策
4 结论