原文标题:《美国大选华裔候选人杨安泽说了,数据比石油更有价值,但怎么完成它?》
撰文:李画
称谢:PlatON 创始人孙立林、安全多方核算研究者晟超

连 2020 年美国总统大选华裔民主党候选人杨安泽(Andrew Yang)都说了,「数据比石油更有价值」,可见这一理念多么家喻户晓。

重新理解「数据即石油」:隐私计算如何保障数据主权?

不过,尽管「数据是数字年代的石油」、「应该把数据一切权握在自己手上」这些说法听上去很有吸引力,但其实很难说清楚咱们该怎么去完成它。

《经纪学人》早在 2017 年就发表封面文章,称「数据将取代石油」成为当今年代最有价值的资源。但直到今天,具有「数据石油」主权的普通人仍然无法从这宝贵的资源中取得收益。

相反,这些数据还给它们的具有者带来了严峻的隐私走漏的问题。

为何美好愿景与实际状况间有着巨大距离?怎样才能完成数据一切权和数据价值?本文试着从已有的实践去探讨,期望能理清一些头绪,对建立起关于该问题的考虑框架贡献一点力气。

重新理解「数据即石油」:隐私计算如何保障数据主权?

咱们不能出售数据

相信咱们每个人都有过接到推销电话的经历。绝大多数人的个人数据都被生意过,最简略的比方电话号码和一些消费信息,这些数据此刻或许正在某个当地等着被再次出售。

数据确实能卖出钱来,钱落入了那些获取了咱们数据的组织的口袋。

这个现象容易带来一个知道的误区,即以为咱们能够经过出售数据来完成数据的价值,也便是说,在咱们借助法律条文和技能手段具有数据主权后,能够经过把这些数据卖给需求的人来取得数据价值,把「石油」卖成钱。

但这是错误的,咱们不能生意数据。在论述这个问题之前,咱们有必要区分数据的一切权数据的运用权

关于这个国际上绝大多数的财物,生意行为意味着财物一切权的转让:一方得到一切权,另一方失掉一切权。但生意数据不会转让数据的一切权,你卖出了数据,但这些数据的一切权仍然归于你。

因而环绕数据的买卖实际上是环绕数据运用权,而不是数据一切权的买卖。但由于数据能够被无限仿制,假如咱们卖出了数据,就无法确保买方会怎么运用以及是否会再次出售这些数据,更精确的说,在某种程度上咱们已经「失掉」了这些数据,哪怕咱们具有数据一切权。

不合法的数据买卖会直接生意数据,是由于他们不在乎数据一切人的权益,但当咱们实在具有了数据一切权后,为了完成数据价值,咱们是不能生意数据的。

那么该怎么买卖数据的运用权但不失掉数据?答案是不买卖数据本身,只买卖数据的核算成果。也便是说,买方能够运用这些数据进行核算,得到其需求的成果,但买方不能获取到原始数据本身。

这是当咱们评论数据一切权和数据价值时,第一件、或许也是最重要需求了解的工作:咱们不能经过出售数据完成数据价值,只能经过出售数据成果完成数据价值。

也便是说,咱们要把数据的一切权和运用权别离,只买卖数据运用权。

隐私核算不只是为用户隐私问题服务

怎么完成只出售数据成果?答案是:经过隐私核算

隐私核算是在不露出原始数据的状况下核算数据,且核算成果可被验证。它包含全同态加密、安全多方核算等多个研究方向,有许多专业的技能文章介绍它们的工作原理,若你期望更进一步了解,能够去查看。

在这里咱们有第二个含糊地带需求弄清,即:隐私核算不只是为维护用户隐私服务,它更是完成数据运用权买卖的根底,也便是完成数据价值的根底。

之所以需求做这个弄清,是由于「隐私核算」容易被了解成又一种维护隐私的技能,要点被落在「隐私」上,但实际上「隐私核算」的要点是在「核算」上。

区块链行业中,由于隐私核算常常被作为一种增强用户隐私的办法用于密码钱银买卖中和区块链上,所以人们更容易把隐私核算了解为它是为完成用户隐私服务的,这一了解并没有错,但它把隐私核算约束到了一个小的范畴。

或许从另一个视点看待这个问题会更明晰。咱们把数据问题拆分红用户隐私问题和数据价值问题。用户隐私问题解决的是与用户相关的原始数据不被走漏、用户的隐私不被露出,咱们能够把该问题看作一种特定范围内的数据隐私维护。

在这个阶段中,隐私核算的人物是一种可供挑选的维护隐私的办法。

在用户得到了数据隐私后,假如他 / 企业挑选把数据放在那儿什么都不做,故事就结束了;但假如用户 / 企业想更进一步,得到数据的价值,就要把数据拿出来运用,工作就进入到下一个阶段,此刻需求经过各种办法来确保数据在被运用的整个生命周期内都不被走漏,咱们能够把这看作一种全范围的数据隐私维护。

在这个阶段中,隐私核算的人物不再是一种可供挑选的办法,而是一条必经之路,由于完成数据价值的办法是在不露出原始数据的状况下出售数据成果,进行数据运用权的买卖,只要隐私核算能够达成这一方针。

假如把数据比作石油,那么隐私核算便是炼油的第一道工序,它是咱们在确保用户隐私前提下把「原油」转换成各种产品的根底。

并非一切数据都具有类似的价值

并非一切数据都具有类似的价值,也并非一切数据都能完成数据价值,这或许是咱们在评论数据价值时又一个需求明晰的当地。

只要当咱们了解数据的复杂性和多样性后,才有或许针对不同的状况,在法律上和技能上运用不同的条款和办法来真实解决问题。

本文将试着从运用视点动身对数据的类别进行一个简略的区分,再介绍该类数据的数据价值问题。此处提出的数据分类办法不一定全面和精确,它只是为建立起一个基本的可供评论的框架服务。

咱们能够把数据分为三大类:

  • 第一类是身份数据

  • 第二类是行为数据

  • 第三类是生产力价值数据

第一类身份数据在网络和实际国际中被用于注册和身份确认,比方身份证号码、电话号码、账户信息等等,这类信息关于不合法工业有着最大的价值,一旦走漏也会给用户带来大的安全隐患。但关于正规数据工业,这类信息反而没有核算价值,它们核算不出有意义的成果。

因而,这一类数据本身是不需求考虑怎么经过隐私核算完成数据价值的。

第二类是行为数据,它包含用户在网络上的浏览痕迹、消费数据,也包含用户的产品运用习气数据等。能够经过核算这些数据对用户进行个人画像,再基于画像向用户推送广告、推送内容、供给服务,乃至推销观念。

行为数据有两大类价值,一是广告价值,咱们都知道几乎是广告养活着整个互联网工业;二是能够协助产品了解用户,从而为用户供给更好的个性化服务。

目前在国际范围内被广泛关注和评论的数据一切权问题首要会集在这一类型的数据身上。很长时刻以来该类数据的各种权限并不明晰,人们也并未在意,直到这些数据的核算成果被越来越多的用于影响或许控制咱们时,咱们才知道到该问题的严峻性。

这其间标志性的工作是 2018 年 Facebook 的数据门工作。在该工作中,一家名为剑桥剖析的数据运营公司获取了超越 5000 万名 Facebook 用户的数据,经过数据核算,他们筛选出其间政治立场摇晃的对象并向其投放精准匹配的政治宣传广告,从而影响了美国的大选和英国的脱欧公投。

重新理解「数据即石油」:隐私计算如何保障数据主权?

好消息是,咱们好像正在拿回这一类数据的一切权。欧盟出台的《通用数据维护条例》(GDPR)规定,产生数据的个人是数据主体,他有权要求铲除其个人数据,也有权反对并要求停止对其个人数据的处理。

坏消息是,咱们没有拿回数据的运用权,如前文所说,数据价值是建立在数据运用权买卖的根底之上的,所以咱们离用这类数据完成归归于用户的数据价值还很悠远。它的困难在于:

一方面,即便被称为史上最严苛的数据维护条例,GDPR 也只是要求企业在运用数据前奉告用户哪些数据被运用了,以及用这些数据做什么,也便是说,它只束缚企业不乱用数据,但并不约束企业运用数据。

另一方面,由于这类数据可被用于协助产品了解用户,假如企业以进步用户体会为理由运用数据——它们现在便是这么做的——咱们好像难以回绝。让用户献身用户体会去要求企业无权运用任何行为数据好像很难,而期望企业主动把这类数据的两种用处区分隔、让渡部分广告价值好像更难。

重新理解「数据即石油」:隐私计算如何保障数据主权?

这是否意味着企业仍然能够按照以前的数据处理方式行事?并不是。咱们会发现上述数据一切权和运用权的别离仅仅是字面意义上的,企业尽管只具有数据的运用权,但它们是「拿到」并运用原始数据本身的,这让数据仍然存在被乱用以及安全方面的问题。

而由于大众隐私认识的觉悟以及各国数据维护法(将安全职责放在运用数据的公司上)的出台,一旦出现问题,企业将或许面临用户的抵制以及巨额的罚款,因而咱们能够看到 Google、苹果等公司现在都在隐私核算范畴进行着很多的研究。

Google 为例,它的「联邦学习 Federated Learning」是将机器学习模型集成到每一台设备上,在汇总用户参数发送给云端时,经过隐私维护地聚合算法和系统工程完成隐私核算。

但需求再次指出的是,企业经过隐私核算完成数据一切权和运用权的别离,不是为了用户能够进行数据运用权的买卖,它们更多的是期望降低数据运用风险、免受隐私泄漏责备,能够满意合规要求的持续免费运用用户的数据。

因而,用户得到这类数据的数据价值是一件路途漫长的工作,其间最大的难点在于认识,只要当咱们有强烈的数据一切权和运用权认识时,才或许推动政府出台更严格的数据维护条例,或许推动新的互联网架构颠覆现在中心化服务器的模式。

「生产力价值数据」最具价值

了解了「身份数据」和「行为数据」之后,接下来介绍第三类数据,在本文中咱们称其为「生产力价值数据」。

该类数据的一大用处是做机器学习,练习 AI;另一大用处是做数据剖析,协助进行科学研究、产品设计、决策制定等。这一类数据假如被恰当运用,能够驱动社会往更有功率、更为友好的方向发展,它们是一种生产力。

第三类数据的收集范围最广,数据量最大。它能够来自于人类,比方个人的医疗数据和财务数据、个人的产品运用习气数据等等;也能够来自于物联网设备,比方传感器收集到的大气状况数据、自动驾驶数据等等。

它的一部分数据来历与第二类数据相同,都是运用互联网产品的用户,只不过收集到的数据的处理方式和用处不同:第二类数据是取之于用户、用之于用户,而第三类数据是被集合后跨数据主体运用。从数据本身的视点动身,咱们能够以为某个数据既是第二类数据,也是第三类数据。

第三类数据具有最大的数据价值,一起它们也有或许最先进入到数据运用权的买卖市场,完成数据价值。

不同于第二类数据是互联网企业自己具有数据运用权一起自己运用数据,不需求进行数据买卖,在生产力价值数据的运用场景中,出现了不具有数据运用权但期望运用数据的人物。从这个视点,咱们能够以为第三类数据是指一切可财物化的数据的集合。

咱们能够拿医疗数据为例来更好的了解怎么运用第三类数据。科研组织或制药厂假如能有很多的医疗数据的支撑,就能更好、更快的研究疾病和开发新药,但具有数据资源的医疗组织由于用户隐私问题和本身利益,并不会把这些数据供给给其他组织运用。

假如咱们经过隐私核算别离数据的一切权和运用权,就能建立起一个数据运用权的买卖市场,不同医疗组织、科研组织和制药厂的数据就能够在这个平台上完成连通——流行的说法是打破数据孤岛——这些组织间能够进行数据的生意,也能够数据同享进行联合的疾病研究。

假如咱们要练习能够确诊疾病的 AI,也需求经过上述方式打破数据孤岛,这样才能供给给 AI 更多、更全面的数据。

需求赘述的是,在现阶段,即便完成了数据的买卖和价值,但由于数据运用权在法律上和运用上的鸿沟都不明晰,咱们作为个体仍然很难拿回全部的数据的价值。

数据一切权和运用权是这个年代最重要的议题之一,《人类简史》的作者、前史学家尤瓦尔·赫拉利(Yuval Noah Harari)的观念是:「假如咱们期望防止财富和权力都会集到一小群精英手中,关键在于标准数据的权限」。

由于数据本身的复杂性和多样化,从鸿沟明晰、能够被精确描绘的细小处动身定义问题、解决问题,而不是寄期望于言论、立法和技能能够全体解决问题,或许才是快速与有用的办法。咱们能够对不同的数据类别进行更具体的分类和剖析,或许用不同的分类标准探讨数据的分类,再基于此评论数据的隐私、数据的一切权和数据的价值完成问题。

从头了解「数据即石油」

数据常被比作石油。

尽管楔形文字中便有人类在死海沿岸收集天然石油的记录,但直到 1846 年亚布拉罕·季斯纳创造从煤中提取火油的办法,1853 年伊格纳齐·武卡谢维奇和扬·策从原油中分馏出精炼的火油,现代石油工业的前史才算真实开端。

不过这仅仅是开端,作为火油灯燃料的石油并不特别,只要在后来当它被用于内燃机后,才爆宣布巨大的潜力,并成为国际上最重要的一种资源。

数据与石油的类似之处在于,仅仅有数据还不行,只要完成了数据的「炼油术」,才有或许开启数据的工业年代。

而数据与石油的不同之处在于,石油是先有炼油厂,然后才有内燃机的需求,而数据是已有巨大的运用需求,却没有老练的技能和根底设施支撑这种需求。

这或许是一件好事。路途漫长,但咱们知道方向。

参考资料:
1.《Federated Learning: Collaborative Machine Learning without Centralized Training Data》
2.《Helping organizations do more without collecting more data》

视野开拓

在伊藤博文看来 ,他们本来就是亚洲的边境人 , “脱亚入欧 ”无非是从一种边境人成为另外一种边境人而已 ,没有什么了不起的 。 “边境到底 ”的人民共识 ,使得日本产生了两大能力 :第一 ,敢于吸取一切强者的智慧 ,在不断求变中寻求生存的空间 ;第二 ,因自卑而自恋 ,由自恋而自傲 ,最终构成一种识别性极其强烈的民族禀性 。 在哲学的意义上 ,边境人意识与中国道家的 “无 ” ,有神近之处 。无论是国家竞争还是企业竞争 ,如果一个族群永远坚定地 、 “自甘 ”立足于边境的话 ,那么 ,它几乎就是很难被真正征服的 ——它因为没有被征服的意义 ,而变得不可征服 。-《把生命浪费在美好的事物上》

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注