当我们在讨论大模型的知识产权保护问题之前,我们首先需要厘清两个基础性问题:何为大模型?大模型由哪些部分构成?
之所以需要从这个根本问题论证,是因为“大模型”并不能简单地等同于传统意义上的“软件代码”,进而被简单粗暴地纳入计算机软件著作权范畴。“抖音诉B612案”揭开了大模型的面纱,进而探讨其重要组成部分“模型结构与参数”是否构成权利客体,以及权利人对其享有何种权利。
基于这一背景,本文拟基于笔者对大模型的粗浅认知出发,以大模型的构成要素为切入点,探讨其在现有知识产权体系下的保护路径。
本文将从以下三个部分开展论述:
第一,何为大模型?大模型由哪些部分构成?
第二,大模型的各主要组成部分可能构成何种权利客体,受到何种保护?
第三,针对全文的简单总结。
一、何为大模型?大模型由哪些部分构成?
关于这个问题,我们先听听大模型自己的看法。综合ChatGPT与Deepseek的观点,大模型是基于深度学习架构,通过千亿级参数、海量多模态数据与分布式训练技术构建的通用基础模型。其核心特征包括规模依赖性、涌现能力和任务自适应,并依赖预训练-微调范式、对齐技术和高效推理框架,其由多个核心要素共同构成,包括模型架构、模型参数、训练数据、训练策略与算法、推理逻辑等技术实体。
以Deepseek自行总结的自身特性为示例,阐述其组成部分的具体示例:

表1:模型组成部分、概念与示例
二、大模型的各主要组成部分可能构成何种权利客体,受到何种保护?
下文将结合现行司法实践,分析大模型各组成部分可能构成的权利客体、在实践中所受到的保护形式,以及在寻求权利保护过程中可能面临的挑战。
鉴于企业在基于现有大模型开展研发时,通常聚焦于特定业务场景的应用,实践中多在既有模型架构基础上,结合特定领域的训练数据,调整模型参数,并配套合理的训练策略,从而实现模型对具体场景的有效适配与性能优化。
换言之,在大多数企业的研发实践中,高频涉及的自研内容主要集中于训练数据、模型参数及优化后的模型架构三个维度。
考虑到训练数据与数据合规问题密切相关,本文不作展开,拟在后续文章中专门论述。下文将重点分析大模型构成要素中最具特殊性的两个部分:模型架构与模型参数。
1.模型架构
模型架构本质上是算法的结构化设计,其表现形式通常为代码,体现了算法在特定任务中的具体化与工程化实现。例如大家耳熟能详的Transformer架构,正是在“注意力机制”算法基础上设计出的用于自然语言处理的神经网络结构。Transformer架构被视为大语言模型的基石,几乎所有主流模型(如GPT、BERT、T5、PaLM、LLaMA等)均基于Transformer或其变体。在AIGC图像生成领域,具有类似基础性地位的则是Diffusion Models。
模型架构作为以代码形式实现的算法结构设计,通常可以作为计算机软件受著作权保护。然而,在实践中,许多基础模型架构(如Transformer、BERT、ResNet等)均已以开源形式发布。企业在使用此类基础模型架构时,核心应遵循相关开源模型所涉开源许可证的要求,此外应避免使用选择使用强传染性的开源许可证,从而不利于后续的商业化使用。
关于模型架构所涉的技术方案,是否可以取得专利权保护。本文将结合谷歌Transformer模型在中国申请同族专利被驳回一案进行探讨。
我们先简要了解谷歌Transformer模型专利在中国申请的坎坷进程,谷歌Transformer模型专利(申请号:201880007309.X)在中国经历了多次审查和复审。


图1:专利基本信息截图
2024年1月23日,国家知识产权局以技术方案不符合专利法第2条第2款(即该技术方案并非专利法所保护的客体)为由驳回了该专利申请。审查员认为,该专利属于对神经网络算法的改进,未解决具体技术领域的技术问题,且未展示如何通过改进提升硬件运算效率或执行效果。随后,谷歌于2024年4月提出复审请求,案件进入复审程序。

图2:2024年1月23日驳回决定截图
2024年11月14日,国家知识产权局发出复审决定书,撤销驳回决定。

图3:撤销驳回决定截图
2024年12月31日,国家知识产权局下发第四次审查意见通知书,说明书不符合专利法第26条第3款,“说明书应当对发明或者实用新型作出清楚、完整的说明,以所属技术领域的技术人员能够实现为准;必要的时候,应当有附图。摘要应当简要说明发明或者实用新型的技术要点”驳回了该专利申请。

图4:最新驳回决定截图
在上述谷歌与国家知识产权局来回交锋的过程之中,大家重点关注的事项即为2024年1月23日,国家知识产权局以技术方案不符合专利法第2条第2款(即该技术方案并非专利法所保护的客体)为由驳回了该专利申请事项——这引发一个问题,与此类模型架构相关的技术方案什么时候落入专利法保护客体,什么时候不落入?
2024年12月31日,国家知识产权局《人工智能相关发明专利申请指引(试行)》(以下简称“《指引》”)试图厘清这个问题。在该指引之中,其将人工智能相关专利申请类型分为四类,包括:涉及人工智能算法或模型本身的相关专利申请[1]、涉及基于人工智能算法或模型的功能或领域应用的相关专利申请、涉及人工智能辅助作出的发明的相关专利申请、涉及人工智能生成的发明的相关专利申请。Transformer模型无疑落入第一种,涉及人工智能算法或模型本身的相关专利申请。
该指引在第三章关于方案客体的标准,回应了2024年1月23日,国家知识产权局以技术方案不符合专利法第2条第2款驳回谷歌Transformer模型专利事项。“人工智能算法或模型以数学理论为基础发展而来。如果一项涉及人工智能算法或模型的专利申请的权利要求仅涉及抽象数学理论或数学算法,不包含任何技术特征,则属于智力活动的规则和方法,不能被授予专利权。例如,一种基于抽象算法且不包含任何技术特征的通用神经网络模型建立方法,或是,不包含任何技术特征的利用优化后的损失函数对通用神经网络进行训练以加速训练收敛的方法,均被认为是一种抽象数学算法,属于智力活动的规则和方法。”
即如果该技术方案本身优化的是抽象数学理论或数学算法,将会被视为“智力活动的规则和方案”,而从不纳入专利法保护客体。我们回到模型架构的概念,其可以理解为“算法在特定任务上的结构化设计,是算法的具体化和工程化体现”,即其注定为针对抽象数学理论或数学算法的结构后设计(优化),从而很可能无法落入中国专利保护客体之中。
基于上述背景,如在中国进行模型相关的专利申请,尽量涉及基于模型的应用的技术方案的申请。
2.模型参数
关于模型参数的知识产权保护,这个问题比较复杂,我们从以下几个维度展开说明:第一,什么是模型参数?第二,模型参数从何而来?第三,如何保护企业模型参数?
(1) 什么是模型参数?
关于模型参数的定义,模型参数(ModelParameters)是指机器学习或深度学习模型在训练过程中通过学习得到的、用于决定模型行为和预测结果的数值变量。以数学公式为例,一条直线的数学公式为:
y=ax+b
其中a、b为模型参数,a为权重,b为偏置。
这是以最简单的直线的数学公式为例,而回到大模型上,以GPT-4为例,GPT-4是一个拥有数千亿个参数的大语言模型,我们可以简单粗暴地这样理解:模型越大,参数越多,表达能力和学习能力通常越强,但计算资源需求也更高。
之前在大模型领域反复提及的“涌现”一词,其与模型参数的概念极其紧密,具体而言,当模型规模(主要指参数数量)达到某个临界点时,模型会突然表现出在小模型中未显现的新能力,而这些能力并不是线性增长的结果,也就是说涌现现象是大模型参数数量不断增长到某个临界点后,模型突然表现出新能力的一种行为模式。
(2) 模型参数从何而来?受什么因素影响
模型参数是通过在模型框架中输入训练数据,并结合损失函数、反向传播和优化算法,不断迭代学习得到的。这里需要进一步明确的是,模型参数是在向模型架构中输入训练数据的过程中,通过训练算法自动学习而得出的。开发者无法直接指定每一个参数的具体数值,而只能通过设计架构、选择数据和设置训练方式间接影响最终参数的形成,具体而言,模型参数受到以下因素共同影响:
a.模型架构:模型的结构决定了参数的类型、数量及其组织方式,是参数生成的基础;
b.训练数据:参数是在对训练数据进行反复计算和拟合中自动更新的,数据的规模、质量和分布对最终参数影响极大;
c.损失函数:损失函数定义了模型的优化目标,引导参数如何调整以最小化误差;
d.训练策略与超参数:包括优化器(如Adam、SGD)、学习率、batch size、正则化方式等,这些会直接影响参数的收敛速度和最终形态;
e.随机初始化与训练过程中的随机性:如初始权重的设定、mini-batch的选择顺序等,也可能导致最终参数结果差异。
(3) 从抖音诉B612案看模型结构参数的保护路径
a.案情简介
在抖音公司诉亿睿科公司侵害著作权及不正当竞争一案【(2023)京73民终3802号】中,抖音公司主张,其涉案的变身漫画特效模型(包括结构与参数)系基于基础模型,通过手绘师绘制的漫画数据与相应的真人数据进行训练,并在此过程中不断调整模型结构与参数而形成。该模型已应用于抖音应用程序中的变身漫画特效功能,可将用户实时拍摄的照片、视频转换为漫画风格。
亿睿科公司运营的B612咔叽应用程序随后上线了具有相同功能的少女漫画特效。两者不仅在对同一张图片进行风格转换时生成高度相似的结果,在模型结构、参数等方面也存在高度相似性。抖音公司据此主张,亿睿科公司未经许可直接使用了其涉案模型的结构与参数,构成侵权。
经比对,双方模型在结构、卷积层数据、分辨率、激活函数等方面具有高度同一性。一审法院判决认为,亿睿科公司使用与涉案特效高度相似的模型,使其少女漫画特效在功能上可替代抖音的变身漫画特效,损害了抖音公司的竞争利益,构成不正当竞争。法院分别就两案判决亿睿科公司赔偿损失及合理支出共计160万元。二审法院维持原判。
b.本案中受保护的模型研发过程
(2023)京73民终3802号判决之中所载变身漫画特效模型研发过程可总结如下表:

表2:变身漫画特效模型研发过程
在审理时,法院重点关注了变身漫画特效模型与Cyclegan模型的关系,判决书中提及,“关于变身漫画特效上线使用的模型与Cyclegan模型的关系,抖音公司证人表示Cyclegan模型并未考虑手机端的实时效果:其优化空间很大,变身漫画特效上线使用的模型与Cyclegan模型已经没有关系。抖音公司申请有专门知识的人,教授表示GAN模型是一类模型。开源的模型仅开源了GAN模型的原理结构,GAN模型的基本框架相同,但深度训练后呈现的模型会有所不同。”
如果对于上述内容需要说明如下技术背景:GAN(GenerativeAdversarialNetwork)是一种模型范式,包括生成器与判别器两个部分,是一个原理结构,其常见的变体如DCGAN、CycleGAN、Pix2Pix、StyleGAN等,都属于GAN家族,结合以上信息可总结如下:
①抖音公司最初在研发中使用过CycleGAN;
②在实际部署到手机端时,出于性能优化需求,已经舍弃或重构了CycleGAN架构;
③所以最终变身漫画特效上线使用的模型并非传统意义上的CycleGAN,而是另一种独立模型;
④不过这个模型的基本框架仍然遵循GAN模型的基本框架。
基于该背景,教授就变身漫画特效模型及与已公开的GAN模型出具专家意见,认为“与已公开的GAN模型相比,抖音变身漫画特效GAN模型的结构是针对特定的日漫风格迁移任务设计,该模型的结构本身以及模型中的每一层的通道数、卷积核大小和子网络结构均与其他GAN模型明显不同”。
换而言之:抖音的变身漫画特效模型仍然属于“GAN模型”这个大类(例如Pix2Pix、CycleGAN都属于GAN模型的不同变体),但他们通过对模型结构进行改造(例如修改通道数、卷积核、子网络)[2],得到了一个结构上与现有模型不同的模型,并训练得出全新的一组模型参数。
c.法院对于“模型结构与参数”性质的认定
关于是否可能构成著作权,法院提及,著作权法意义下的创作行为既不能是单纯积累素材、数据、创造生成工具的行为,也不能是按照既定的规则机械地完成一种工作,缺乏创作空间的行为。
基于上述背景,法院对于抖音的模型研发过程加上最终用户使用过程这四个阶段对于生成模型结构与参数而言是否构成创作,具体分析如下:

表3:法院对于创作过程的评价
综合此前提及的抖音模型研发过程以及模型参数生成原理,笔者认为法院上述评价十分清晰,并且从模型研发的各个阶段进行拆解分析。顺便补充一句,虽然在风格化量产所涉及的训练数据,对于生成优化模型结构与参数而言,其并非创作行为,但此类训练数据为五万余幅手绘画作,训练数据本身构成受著作权保护的美术作品。
关于是否可能构成不正当竞争利益,法院认为,该款产品发挥了维护用户粘性、保持原有用户活跃度以及吸引新用户的作用。抖音手机应用程序的流量亦会因为变身漫画特效的吸引力而增强,因此,该款特效能够体现微播公司的竞争利益。从而以《中华人民共和国反不正当竞争法》第二条通用条款予以保护。
d.如何认定B612的模型与抖音变身漫画特效模型一致
法院判决提及,鉴于模型结构的一致性固然存在参考相同研究成果、使用相同模型结构的可能,但模型参数的设置较为细节,出现高度一致性的可能性较小,比较从公开渠道获取的B612咔叽9.7.10版本和抖音11.5.0版本中提取的模型,模型结构中的整体网络结构(B612网络结构无BN层除外)、非相邻子网络之间的连接关系、相互连接的非相邻子网络的结构、卷积层层数、升采样次数位置均一致,36个卷积层中有33个数据完全一致,相似比例达到91.7%,两者的差异部分亦对最终成像效果微小或无影响。
其中整体网络结构(B612网络结构无BN层除外)、非相邻子网络之间的连接关系、相互连接的非相邻子网络的结构、卷积层层数、升采样次数位置等均属于模型结构范畴,36个卷积层中有33个数据属于模型参数范畴。法院考虑到其模型结构的相似性可能涉及其基于GAN开源模型演变而成,故而就模型参数高度一致而认定存在抄袭的高度盖然性。
e.抖音变身漫画特效模型基于GAN开源模型对本案判决结果有何影响?
判决提及,亿睿科公司未提交证据证明GAN开源模型涉及强传染性许可证。不过假使GAN开源模型的开源许可证为强传染性许可证,这将意味着,只要开发者使用了这种许可证下的代码,其衍生出来的作品也必须使用相同的许可证开源发布,除非采取独立封装方式以至于该部分构成独立作品。
假使存在上述情形,B612是否构成侵权还需进一步看抖音变身漫画特效模型对于GAN开源模型的使用方式。
f.本案件对企业的启示
抖音诉B612案之中,抖音对于大模型在特定场景的应用方式实则为当前大模型最广泛的应用方式之一,基于该背景,企业在基于现有开源模型针对特定应用场景优化时,针对最终生成模型应采取何种保护措施?笔者基于本案建议如下:
第一,保存企业大模型研发记录与过程,留存数据收集与标注、模型选型、训练过程、参数调优、版本迭代全流程记录,证明企业的资源投入;
第二,避免使用涉及强传染性的开源许可证的开源模型。
三、总结
基于上述分析了解到,大模型基于其技术革新,难以简单粗暴地将其一概而论地纳入计算机软件著作权范畴,就其主要组成部分而言,笔者简要总结如下表:

表4:模型组成部分
脚注
[1]人工智能算法或模型,即高级的统计和数学模型形式,包括机器学习、深度学习、神经网络、模糊逻辑、遗传算法等。这些算法或模型构成了人工智能的核心内容,它们能够模拟智能的决策和学习能力,使得计算设备能够处理复杂问题并执行通常需要人类智能才能完成的任务。
[2]笔者理解此类调整属于“在开源架构之上进行的微观改造”,即“细节创新”,本质上还是以GAN为基底的任务定制模型。