申卫星 数据产权的力度与限度

 、中国法学会民法学研究会常务理事、北京市法学会物权法研究会副会长、中国卫生法学会副会  2024年7月3日,2024中国数字经济发展和治理学术年会在清华大学成功举办。本届学术年会聚焦“数据要素、人工智能与数智时代的理论创新”,邀请国内外40余位专家、学者及机构代表进行主旨演讲和交流。来自清华大学、北京大学、中国人民大学、中国科学院大学、中国社会科学院大学、浙江大学、南开大学、上海交通大学、西安

  、中国法学会民法学研究会常务理事、北京市法学会物权法研究会副会长、中国卫生法学会副会

  2024年7月3日,2024中国数字经济发展和治理学术年会在清华大学成功举办。本届学术年会聚焦“数据要素、人工智能与数智时代的理论创新”,邀请国内外40余位专家、学者及机构代表进行主旨演讲和交流。来自清华大学、北京大学、中国人民大学、中国科学院大学、中国社会科学院大学、浙江大学、南开大学、上海交通大学、西安交通大学等高校和数字经济相关科研机构及企业代表共400余人出席线下会议。会议通过多个平台同步直播,当天信息浏览量超过十万人次。

  清华大学智能法治研究院院长、法学院教授、人工智能国际治理研究院人工智能法律法规方向首席专家申卫星以《数据产权的力度与限度》为题进行了主旨演讲。本文根据申卫星教授现场发言内容整理。

  尊敬的各位与会嘉宾,大家下午好,我是来自清华大学法学院的申卫星。今天我报告的题目是《数据产权的力度与限度》。之所以以此为题,是因为数据产权问题对数字经济发展事关重大,需要各界深入探讨和交流。在对于数据是否确权、如何确权问题上,我们既要看到数据产权对于数字经济发展产生激励的重要力度,又要充分认识到数据产权有其限度,可能产生的数据壁垒等“反公地悲剧”现象,因此利用这个机会,想谈谈我对构建现代数据产权制度的看法。

  数据权属的缺失构成了当下数字经济发展最大的痛点、堵点和立法的难点。此前,大家所熟知的《数据二十条》提纲挈领地提出要构建包括数据产权制度、数据要素流通和交易制度、数据要素收益分配制度以及数据要素治理制度在内的四项数据要素基础制度。而在这四项数据要素基础制度中,数据产权制度既是逻辑起点,也是整个数据制度的基础,是探讨数据要素基础制度不能绕开的关键问题。

  对于数据产权,《数据二十条》从数据要素价值释放的路径出发,明确数据资源持有权、数据加工使用权和数据产品经营权的三权结构性分置思路。三权分置模式体现了我国对数据要素的整体认知,是政策上的首创。这也意味着,当前不存在有关数据产权的法律规范,想要落地《数据二十条》的结构性分置模式,必须从头厘清数据确权思路,体系化构建现代数据产权问题。当下,国家数据局正在起草关于数据产权若干意见的文件,国家数据局的公众号也转发了央视新闻今天发布的消息,即国家数据局将在今年下半年陆续出台8个制度文件,其中尤其令人关注的便是数据产权的若干意见这个文件。今天我的报告就此问题发表一下自己的看法,以就教于大家!

  报告有三部分:一是数据要不要赋权,要不要确权?数据确权问题一直伴随激烈争论,不光是经济学界有反对的声音,在法学界哪怕是在《数据二十条》颁布之后仍面临着很多质疑。数据确权的优点是避免数据的“公地悲剧”,即通过界定权益边界,推动各方形成稳定可预期从而激励创新流通的机制。其缺点则正好反过来,过分保护数据就会出现经济学界提出的“反公地悲剧”,即数据产权导致数据主体之间的相互隔离,形成所谓的数据孤岛、数据烟囱,妨碍了数据流通和利用。我们对这两个方面都应重视,同时坚持对数据进行确权的基本立场,但对数据产权这个无体财产权应受到一定的限制。对此,党和国家在权衡利弊后已经在《数据二十条》中明确了数据要确权的基本立场,在未来要颁布的数据产权若干意见中也应得到坚持。二是如何确权?要确权就要合理分配不同数据参与主体的付出和贡献,特别是平衡好数据来源者和数据处理者的关系,以及数据生成复用过程中不同数据处理者的产权配置和流转关系。对此的讨论也有很多,争点主要集中在是否赋权数据来源者,以及如何正确认识《数据二十条》三权的内涵上。三是如何合理平衡数据产权保护和利用的关系,放大其优势而最小化其不足。由此就涉及到了数据产权的边界及其限制问题。特别是在AI大模型的预训练的过程中,大量使用公开的数据,是否需要得到这些数据权利人的同意,是否需要付费,这在ChatGPT4出来之后,《》诉OpenAI版权侵权等案中有过讨论,中国这样的诉讼也是越来越多。可以说,如何限制对于大模型训练过程中的数据权利限制已经成为需要尽快解决的重点问题。

  首先,是否要确权?反对确权有两方面的理由,一个是经济上的理由,一个是法学上的理由。经济学界反对数据确权的理由可以归纳为三个方面:一是着眼于数字经济的一些特点,强调数字经济就是互联互通的、共享共用,若确权则会阻碍数字经济的互联互通。二是确权会增加交易的成本。一旦确权之后,必然在使用的时候要获取他的同意,甚至有可能还要付费,就可能挫败数据参与方使用数据的积极性,形成数据壁垒,造成所谓的“反公地悲剧”。三是强调数据与我们目力所及范围内的桌椅板凳、高楼大厦、汽车,和动产、不动产这种传统财产不同,数据是无体的、无形的,看不见、摸不到,这时是否还适用于传统《财产法》的规则就不免产生疑问。反对者强调数据生成的多元共生性,以及它的非独占性、非排他性和非消耗性,这些有别于传统财产客体的特点,使其认为将数据权属分配给哪一个主体都难谓正当。

  另一个层面是法学界提出的反对理由。有些学者认为,即使不确权,通过反不正当竞争法等责任法保护亦无不可。在权利保护上存在责任规则和财产规则两种。财产规则就是通过确权的方式来规制数字经济的运行,而责任规则的意思是说我们先不确权,大家都可以免费使用,如果有人起诉你,由法院来判决是否要金钱赔偿。这等于通过事后支付费用作为替代救济方式。还有学者引用了英美法下的misappropriation的概念,主张公开数据都可以无偿爬取,除非大量爬取或爬取影响了正常经营造成市场替代,此时才会构成不当获取,从而受到惩戒。

  这些理由都可以一一来进行反驳,既可以在实然层面反驳,也可以在应然层面反驳。从实然上看,《民法典》第127条有明确规定,法律对数据和网络虚拟财产的保护,有规定的依照其规定。很多人说这一规定没有意义,因为法律没有规定才需要你立法者去规定。但是在我看来,这个规定还是有重要的意义,至少指明了两点:一是立法者非常明确、清晰地向社会表达了我国要对数据进行保护的一个立场。二是他不仅表达了要保护的立场,而且指明了保护的路径,这个路径就是将数据的保护与网络虚拟财产的保护相并列走财产权路径。那么,既然网络虚拟财产应确权已经达成共识,那么体系解释之下,对数据保护走财产权保护的路径也应当是顺理成章的。《数据安全法》第7条也明确规定,国家保护个人、组织与数据有关的权益,这也明确清晰地传达了数据需要走财产规则而非责任规则这样一个观点。所以,从尊重现行实证法的角度,我们需要落实民法典第127条和《数据安全法》第7条的规定。

  从应然层面看,固然一些责任规则比如不当获取规则,合同责任规则确实能局部解决纠纷,但都不能够整体地解决数据发展问题。我的比喻是“穿着旧鞋来走数字经济的新路和大路,是难以应对的。”对于部分案件可以不论保护对象的性质,不论保护的强度和方式,都通过责任规则一并保护。但是,保护数据不仅是为了制裁,更是保障后续交易的有效性,换句话说,数据交易纠纷不能只在纠纷诉诸法院的时候才得到解决,更需要未雨绸缪,提前稳定交易预期,明确数据交易规则,从源头防范纠纷产生。此时责任规则就无的放矢了,只有财产规则能让数据各参与方都能够清晰了解前手的出让人和后手的买受人在数据交易的时候是否有权处分还是无权处分,后手的权利人获得了什么权利,是否获得相应的法律保护,保护效力如何,才能让数据“供得出”“流得动”,从而“用得好”,这才是数据授权的根本所在。更进一步说,数据确权不仅要做,而且必须国家统一来确权。财产法有一个基本原则就是“财产权法定”,这要求数据产权的赋予、流转等都需要国家立法。当前各地都在尝试进行数据的确权,部分地区还有着特殊的立法权限。但必须认识到,数字经济是没有地域限制的,不论是深圳还是上海都不可能各地自行设计数据确权和交易规则,因此对于数据产权,必须国家立法,统一确权。

  现在很多司法案例,都是数据未确权下引发的困境和难题。比如,在一个数据企业汇集了大量的数据之后,很多平台来爬取这些数据资源。这些爬取方的抗辩理由就是这些汇集的数据资源都是用户的数据,数据企业只是一个汇聚的平台,不享有任何财产权益。目前无法数据确权下,数据企业为汇集整理这些数据资源付出的实质性的劳动难以得到保护。如果任由他人无偿爬取,久而久之数据产业的创新和投入就会停止,公地悲剧会再次重演。即使部分数据企业还愿意汇集数据,在没有确权的情况下也会被动选择树立数据壁垒,拒绝数据开放共享,整个数据产业就会陷入丛林法则。

  数字经济是不是社会主义市场经济的一个重要组成部分?如果是的话,数据产权清晰同样就应是市场经济发展的一个基本前提。有恒产者有恒心的观念绝不仅仅是在有体物世界里,在无体物世界里同样应予坚持。数据的个性必须关注,但在设置抽象规则时更不应当忽略数据和其他有体财产之间的共性。数据要竞争,同样也要确权。

  这就像出火车站是排队出站还是自由出站一样,确权就是设置规则排队出站,而竞争就是看谁跑得快,蜂拥而上。在排队出站的人很少,数字经济规模不大的时候,允许大家自由出站没有问题。但是在出站人多的时候,如果蜂拥而上结果就是谁都无法出站,此时显然排队更有效率。同样的原理,在我国数据体量巨大,数字经济高速发展的当下,必须有舍小本而求大利的勇气,明确数据权益边界,如此才能促进社会主义市场经济的健康规范地持续发展。

  第二个问题是如何设计数据产权规则?在数字经济发展当中存在诸多参与主体,有些是数据的来源者,有些是数据的存储者,有些则参与数据的传输、加工、分析、删除、提供、境外跨境流动等等环节。对于这些主体我们可以把它们类型化为两类,一个是数据的来源者,一个是数据的处理者。《数据二十条》里明确提到了这两类主体,如果大家认真解读还可以发现《数据二十条》对不同主体的保护强度的用语也有所不同。对数据来源者,是充分保护数据来源者的合法权益,对数据处理者,是合理保护数据处理者依法依规所持有的数据进行自主管控的权益。一个是“充分保护”,一个是“合理保护”。具体来说,就是数据来源者有对自己促成数据资源复制和转移的权利,而数据处理者有所谓的数据资源持有权、数据加工持有权和数据产品的经营权,最终实现数据要素的流通利用复用。

  然而,解释到这里显然是不够的,要设计数据产权制度,首要必须回答数据来源者的权利和数据处理者的权利是什么关系,他们是如何传递形成的这一基础命题。要回答这个问题,就必须运用权利分割理论,构建一个从两权分置到三权分离的数据确权过程。

  纵观各类生产要素,从过去的四大生产要素,到当下讨论的第五大要素的数据,可以发现生产要素要进入市场必然要进行权利分割。以土地为例,城市的土地归国家所有,但是土地要想成为生产要素,必须在土地归国家所有这个基本准则不变的前提下再设立他物权,即通过建设用地使用权或土地经营权这些新的权利来真正进入市场流通。开发商通过支付土地出让金购买了地方政府的一块地,他是在国家所有权不受影响的情况下分离出来一个国有土地的建设用地使用权。此时土地的产权在国家和开发商之间进行了两权分离,国家的土地所有权没有受到影响的情况下,开发商通过支付土地出让金获得了土地使用权,而土地使用权可以通过商品进入流通市场,通过一级市场、二级市场不断地流转。劳动力、资本、技术都是如此。

  从本质看,权利分割实际上是制度改革。当年安徽凤阳小岗村进行联产承包责任制改革就是打破既有“一个产权”格局,让集体土地所有权和以家庭为单位的土地承包经营权分离,两者共同形成集体土地产权的有机整体的创新性尝试。四十年后我们谈数据产权同样应坚持这样一条权利分割的思路。

  一是将两权分离作为数据产权的初次配置。数据来源者是数据从无到有的原发者,拥有对促成产生的数据资源的弱所有权。而处理者是数据产权的中流砥柱,对依法依规持有的数据资源享有自主管控的权益,并由此衍生出来后面对数据集合和数据产品一系列的权利。从而形成了作为数据来源者的用户享有数据所有权,作为数据处理者的平台,享有对数据实际的支配使用收益的用益权的整体架构。

  二是两权分离之后,《数据二十条》提出了数据资源持有权、数据加工使用权和数据产品经营权的三权分置概念。因此下一步就是分阶段,逐渐将这三权的内涵从政策语言转化为法律语言,最终予以明确下来。一是深化《数据二十条》文件,寄望国家数据局即将颁布数据产权若干意见的文件可以解决这个问题。二是推动立法,把它真正转化为法律语言。对于数据资源持有权,就是当你在采集他人数据的时候,如果符合依法依规采集的规则,那么对他人数据就享有自主管控的权益,此后你可以拒绝他人的不当爬取。同时基于这种自主管控的权益,你还将他人的数据加工成一个标品,或是形成一个数据产品,从而享有加工使用权和产品经营权。

  最后也是第三个问题,就是数据产权的边界和限度是什么。一旦确立产权之后,就必须回过头来妥善考虑数据产权带来的成本问题。换言之,在宣扬数据产权之利的同时,最小化数据产权带来的交易成本,避免形成所谓的反公地悲剧。对此,就需要对数据产权进行必要的限制。

  对数据产权的限制,首先是要正确看待数据和信息的关系,区分协调好数据保护与信息保护的关系。数据与信息两者处于不同层次,分属内容层和符号层。举例来说,你的邮箱的密码到底是多少?这是信息,不论以电子还是纸面形式告诉我,都不影响信息的本质。但是如果你通过微信发送给我密码,那么传送的方式是通过数据的方式,当我删除数据时,你可能无法再复制、转发我发送你的数据,但你完全可以记住我的密码。所以,信息不等于数据,不能以对信息的保护代替对数据产权的保护。但同时,两者也不能完全割裂,数据往往承载着信息,因此在对数据进行利用时一定要考虑到其上负载的个人信息,特别是符合《个人信息保护法》中的知情同意规则等等。对此,可以通过匿名化,去标识化等处理方式在数据产权行使和信息保护之前取得平衡。

  防止反公地悲剧,还可以借鉴知识产权中合理使用、法定许可等制度。合理使用既不需要征得权利人同意,也不需要付费。法定许可只是不需要征得同意,但是需要付费。这两种情况都需要法律明确规定哪些类型。俗话常说,要站在前人的肩膀上研究创新,这意味着前人需要给予后人一个豁免权,从而鼓励后人在此基础上不断创新创造。这在人工智能时代早非罕事。很多人工智能模型训练的时候都必须读大量的文献,之后根据这些文献做出一些回答,这些输入和输出如果可以落入合理使用范围内,显然就不再需要得到同意,更不需要付费。如果无法落入合理使用范围内的,也可以考虑是否落入法定许可的范围。

  当然,还可能存在强制许可的适用空间,其与法定许可的区别就在于,仅在不满足法定许可的特殊情形下,通过一事一议,从而例外地以事后金钱救济代替行为禁止。对于这种特殊的强制许可,必须遵循公平、合理、非歧视等原则,主要场景是要求大企业的数据向中小企业的数据进行开放。合理使用、法定许可以及强制许可组成的产权限制,限定了数据产权边界,以实现数据确权与数据利用的平衡,在避免“公地悲剧”的同时防止“反公地悲剧”的发生。

  以上,就是我围绕“数据产权的力度与限度”这一主题,粗浅地谈了谈我的体会和认识。数据确权必要且紧迫。作为数字经济时代的新生产要素,数据产权制度的边界塑造不仅关涉数据要素市场的健康发展,更是推动数字经济高质量增长的关键所在。因此依托合理的制度设计,确保数据在保护中流通,在流通中创造价值是当前各界都需要关注和解决的重要任务。在此,我也再次感谢主办方为我们提供了这样一个宝贵的交流平台,感谢各位的聆听和批评,也期待与在座的各位同仁一道,继续对数据产权问题深化研究和实践,共同推动数据产权与数字经济的融合发展,谢谢大家!

  清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。k8凯发