数据治理如何打破孤岛效应？了解一下可验证凭证

币圈资讯 4 年前 5.3K

首码项目微信群，加微信：WX-93588 （加微信时备注散户/团队长）⬅️此处为全站广告位，与正文项目无关
注册并登录App即可领取高达 60,000 元的数字货币盲盒：点击此处注册OKX

摘要

针对我国监管科技数据办理中存在的数据孤岛、数据质量、数据交融困难、数据乱用等问题，提出了将可验证凭据数据模型用于数据办理的处理思路。本报告介绍了可验证凭据的概念、数据模型、要害技能与首要技能特征，并探讨可验证凭据用于数据办理的几个方向，一起介绍了可验证凭据技能的标准和运用老练度。可验证凭据具有安全性、隐私性、实在性、共同性、时效性、互操作性等技能特征，符合了大多数当时数据办理中存在的痛点，有助于进步数据质量、供给隐私维护合规计划、促进数据互通。

2018年，银监会发布《银行业金融组织数据办理指引（征求意见稿）》，提出了加强数据办理、进步数据质量、充分发挥数据价值、进步经营办理水平、全面向高质量发展改变的目标。

数据是数字经济时代的根底战略性资源，金融业是数据密集的行业，做好数据办理、充分发挥数据的价值，有利于推动金融业数字化转型，推动金融事务高质量发展。

一、我国监管科技中面临的数据办理问题

在2019年12月1日举办的“第四届我国新金融高峰论坛2019”中，我国人民银行科技司司长李伟发表主旨演讲，谈到当时数据办理首要有四方面的问题。

（一）数据孤岛问题

随着数字经济和大数据工业的发展，政府和企业都发生了很多的数据。“数据孤岛”是指金融组织面临的数据同享困境，因为短少数据同享激励机制、数据同享交流协同机制、数据同享隐私维护机制，导致海量数据散落在很多组织和信息体系中，构成一个个的“数据孤岛”。

一是短少数据同享动力。大多数组织认为数据是战略性资源，意味着客户资源和市场竞争力，出于自身的利益考量，组织往往将用户数据视为自己的财产，不肯与其它组织同享。

二是短少数据同享交流协同机制。现在我国数据协同的根底设施还不完善，各组织自行建造，按照各自的形式进行数据的搜集、核算、整合、分享，数据标准和数据接口纷歧，难以进行互联互通，阻碍了数据的敞开同享。

三是短少针对隐私数据的隐私维护机制。金融数据触及用户个人隐私或组织商业秘密，在我国的《个人信息维护法》草案、欧盟的GDPR法规中，均提出对隐私数据的维护，传统的数据同享根据事务体系之间进行数据互传，因未经数据一切者许可而存在法律危险，在没有相应隐私维护计划的状况下组织不敢贸然进行数据同享。

（二）数据质量问题

金融科技背景下，高质量数据成为金融服务与创新的重要根底，也是大数据进步金融精准施策才干的要害条件。金融业整体数据质量不高仍然是一个杰出的问题。

数据质量问题首要体现在数据的完整性、精确性和共同性上面。

因为短少共同的数据办理体系，有些金融组织在数据搜集、存储、处理等环节或许存在不科学、不标准等问题，导致过错数据、异常数据、缺失数据等“脏数据”发生，无法确保数据的完整性和精确性。

因为不同部分、分支组织体系不同，事务品种多样，各部分各自进行数据的搜集、核算、整合，没有共同的标准进程；而且数据自身的概念、类别体系没有行业标准，核算形式与核算口径也没有老练的类标准形式，同一数据源在不同部分的表述或许彻底不同，最终得到的数据也标准纷歧，影响全局数据的建模、剖析和运用，影响数据发掘的作用。

（三）数据交融困难

金融数据的来历广泛、联系杂乱、远近亲疏各不同，需求以数据交融的办法完结集成。数据交融依靠于高效的信息技能支撑和牢靠的根底设施确保，树立数据间、信息间多维度、多粒度的相关联系，完结更多层面的信息交互，是最大程度发挥数据价值的一种手法。

部分金融组织，特别是中小组织的科技投入相对缺少、短期内人才匮乏，运用数据建模剖析处理实际问题的才干有待进步。数据发掘不深化、运用领域狭隘，导致数据的潜力未得到充分运用。

（四）数据乱用问题

我国数据办理的法律法规尚不健全，《个人信息维护法》《数据安全法》于2020年正式进入立法进程，当时仍短少个人信息数据运用的体系性立法，金融组织运用个人信息数据的标准细则还有待完善健全。长期以来，企业搜集和运用个人数据的违法违规成本低，为追求商业利益，过度搜集数据、违规运用数据、不合法交易数据的状况经常发生，电信诈骗、骚扰电话、暴力催收等行为屡禁不止，既影响个人信息安全，也影响个人资金安全，严重损害用户权益。

二、可验证凭据的基本原理与技能发展状况

可验证凭据（Verifiable Credential），是现实国际中物理凭据的一种数字化体现形式。W3C的可验证凭据数据模型（Verifiable Credentials Data Model 1.0）标准中界说了可验证凭据的数据格局。它是一种标准化的数字凭据的表达办法，从运用场景、中心模型规划均参照了现实国际中的物理凭据，目的是将物理凭据的优势引进到数字国际中。可验证凭据的典型特征是密码学安全、隐私维护和机器可读。

物理凭据包括证件、执照、证明、回执等各种可用于身份或资质验证的有效物件，如护照、医师执照、银行开具的收入流水证明、出租车小票等等。凭据上一般载有一系列要害信息、以及凭据来历方的印章等防伪手法，这些信息经过其物理载体由数据一切者保管，并在运用时提交、仿制或出示给凭据的接纳方。物理凭据具备可验证的特色，如医师执照可用于判别其主体是否具有从事医师工作的才干、银行流水证明可用于判别其主体是否具有借款归还才干，等等。

（一）可验证凭据模型

可验证凭据模型中包括四类人物：

凭据一切者：具有可验证凭据，并向凭据验证方出示凭据的人物。比方个人或企业。
凭据发行方：创立可验证凭据，并传送给凭据一切者的人物。
凭据验证方：接纳并处理可验证凭据的人物。
可验证数据注册表：体系人物，用于维护需求被上述多个人物运用和验证的数据，首要为标识符、标识符相关密钥、可验证凭据模板、凭据吊销注册表、发行凭据的公钥等等。它的完结办法能够是中心化或去中心化的，如可信数据库、分布式数据库、政府数据库或分布式账本，它们具有不同的安全性、扩展性和成本。

数据治理如何打破孤岛效应？了解一下可验证凭证图1 可验证凭据模型

（二）可验证凭据数据

可验证凭据中的数据包括声明、可验证凭据和可验证凭据组合。

1、声明

声明（claim）是与主体相关的特点信息，一个声明运用“实体-特点-值”的数据模型进行表明，如“Alice-结业校园-Faber大学”。多个声明可进行组合用于表达杂乱的数据联系，比方和其它主体或其它主体的数据之间的联系。声明所运用的这种数据模型具有很强的灵敏性和丰厚的体现才干，可对任何数据进行编码

数据治理如何打破孤岛效应？了解一下可验证凭证

图2 声明数据模型

数据治理如何打破孤岛效应？了解一下可验证凭证

图3 声明示例

2、可验证凭据

可验证凭据中一般包括一个或多个声明，这些声明由同一个声明发行人宣布。能够由一个实体（如个人或组织）自己宣布，也能够由另一个凭据发行方宣布。

可验证凭据中除了关于凭据主体的声明信息，还包括凭据的描绘信息和密码学证明。凭据的描绘信息一般包括：凭据发行方、凭据过期时刻、凭据验证公钥、凭据吊销机制，等等。凭据由发行方签名，可经过密码学证明是否由凭据中声称的实体签发且未被篡改，因而被称为可验证凭据。

3、可验证凭据组合

可验证凭据组合是凭据持有方向凭据验证方出示凭据的数据格局，一般包括一个或多个不同凭据发行方签发的可验证凭据，由凭据持有方进行挑选和组合，代表与该凭据验证方相关的特定场景中的用户画像。

与可验证凭据类似，可验证凭据组合中也包括凭据组合的描绘信息和密码学证明。密码学证明一般为数字签名，可证明是否由凭据组合中记录的实体生成且内容未被篡改。

以上声明、可验证凭据、可验证凭据组合中的数据联系均可用图形化描绘，下图是一个可验证凭据组合的示例。

数据治理如何打破孤岛效应？了解一下可验证凭证

图4 可验证凭据组合数据模型

（三）可验证凭据完结的相关技能

上述可验证凭据数据模型完结进程中运用的技能首要是数据编码、密码学技能和分布式账本这三个方面。

1、数据编码

可验证凭据数据模型的完结需求采用标准的数据编码办法，便于核算机辨认和处理。标准只界说了数据模型的结构，对数据编码办法没有要求。标准中引荐了JSON和JSON-LD两种编码办法，但任何数据表明语法都能够用于表明可验证凭据数据模型，比方XML、YAML等等。

2、密码学技能

可验证凭据的技能特性首要来历于将密码学技能运用于数据核算、存储进程，以供给对数据的可信证明和隐私维护。以下罗列几种可验证凭据的完结中常见的密码学技能。

（1）数字摘要

数字摘要是采用单向Hash函数将需求加密的明文“摘要”成一串固定长度（128位）的密文，这一串密文又称为数字指纹，它有固定的长度，而且不同的明文摘要成密文，其成果总是不同的，而相同的明文其摘要必定共同。数字摘要可用于确保数据的完整性和避免篡改。

（2）数字签名

数字签名运用了“非对称密钥加解密”和“数字摘要”两项技能来完结一品种似纸质物理签名的作用。信息的发送者对信息生成摘要，并用私钥对摘要信息加密发生一段字符串，即数字签名；信息的接纳方用信息发送方的公钥对数字签名进行解密，获得摘要数据，再依据信息原文验证摘要数据是否正确。非对称密钥技能确保了只要相同的信息原文和签名私钥才干发生相同的数字签名，别人无法假造，因而数字签名是对信息的发送者和信息实在性两方面的有效证明。数字签名具有不可狡赖性，可用于验证数据的实在性和完整性。

可验证凭据和可验证画像中的密码学证明一般采用数字签名技能，由数据的签发者对数据内容核算数字签名后将数字签名附在数据内容后，以确保数据的接纳者确认数据来历的不可狡赖、数据内容未被篡改。

（3）根据零常识证明的匿名凭据技能

零常识证明的理念是经过将束缚联系相关到核算困难性理论，在证明者不泄漏被证明数据明文的条件下，向验证者证明束缚联系的正确性，被证明数据有极大概率满意验证者指定的束缚联系，例如证明转账金额不是一个不合法的负数。

匿名凭据技能具有很强的隐私维护特性，在可验证凭据中用于核算声明中的特点值。除了对特点的挑选性发表外，匿名凭据技能还允许凭据验证方在不获取特点值的明文或密文的状况下，仅获得对特点值的密码学验证成果，完结对数据的最小化发表。

3、分布式账本

分布式账本首要用于完结可验证数据注册表。尽管标准没有限制可验证数据注册表的完结技能，从注册表的功用考虑到注册表需求被多方信赖，当在敞开环境中运用、或参加人物较多的时候，运用分布式账本是较好的挑选。

分布式账本的首要作用是用于维护被多个人物运用和验证的数据。首先，在签发凭据之前，凭据发行方依据自身事务需求来界说一个凭据中包括哪些声明，将该界说作为可验证凭据模板揭露发布到分布式账本中。一起，凭据发行方还需求将签发凭据的公钥、凭据吊销注册表揭露发布到分布式账本中，用于验证凭据的有效性。其次，当凭据发行方吊销凭据时，一般需求更新凭据吊销注册表，以便及时更改凭据的有效性。

分布式账本也能够为可验证凭据的运用体系带来更高的体系安全性。如可验证凭据能够经过链上和链下两种办法进行存储办理。链上凭据一般仅需求在链上存储凭据的哈希值，凭据则存储在凭据一切者能够访问的任何数据存储中，包括指定的保管人或涣散式存储体系（如IPFS）。凭据接纳方能够经过核算凭据哈希值并与在区块链上找到的哈希值进行比较来查看数据的完整性。凭据也能够彻底脱链存储，直接在凭据一切者的设备上和/或由指定的保管人存储。可是，仍然存在链上机制来处理吊销和其他凭据状态更新。

（四）可验证凭据的技能特征

作为一种全新的数据模型，可验证凭据具有以下六点技能特征：

1、安全性

国际标准化组织/国际电子技能委员会对“信息安全”的界说为：

坚持信息的保密性（confidentiality）、完整性（integrity）和可用性（availability）。

注：此外，也可包括如实在性（authenticity）、可核对性（accountablity）、不可否认性（non-repudiation）和牢靠性（reliability）等其他特点。

可验证凭据标准要求可验证凭据和可验证组合中包括至少一种密码学证明机制和证明数据，来坚持它们的可验证性。这种证明机制和证明数据均由数据源头核算给出，除了数据源自身，其它用户不知道数据源的私钥，无法假造相同的证明数据。数字签名技能确保了数据内容和证明数据的共同性，只要数据完整且未经篡改的状况下才干验证正确。所以可验证凭据模型可确保数据的完整性、可核对（验证）性和不可否认性。

2、隐私性

信息安全是隐私维护的根底，但隐私维护不彻底等同于信息安全。隐私维护的目标在于避免隐私数据被非授权的主体运用或许以一种未授权的办法运用。隐私数据的范畴包括了一切的非揭露数据。关于个人来讲，隐私数据是关于自己和周边环境包括社交网络的个人数据。关于企业来讲，隐私数据是关于自己和合作伙伴的事务和其他非揭露数据。

传统的数据同享办法一般是事务体系之间进行数据传输，用户既不知情也无法控制同享了哪些数据、以及是否有隐私数据。可验证凭据模型中，数据同享有必要经过凭据一切者，凭据发行方和凭据验证方之间不需求直接通信，这避免了用户授权环节的缺失。一起，可验证凭据模型供给了根据特点的灵敏的数据同享战略，且经过密码学技能可支撑不同程度的数据最小化发表。凭据验证方向凭据一切者恳求数据，可指定需求哪些特点、是否仅需求密码学验证成果。例如，在银行验证企业借款资质时，可要求企业证明年收入是否大于500万，而不必给出详细的经营数据。

3、实在性

实在性指数据是否实在精确的反映客体的实体存在或实在的事务。可验证凭据模型中要求凭据发行方将其凭据模板和凭据发行服务在全网揭露以供给验证，且每个可验证凭据中有必要包括凭据发行方信息，这使得凭据发行方的行为可被追溯，对数据实在性的要求也相应更高。

4、共同性

共同性指相同的数据有多个副本的状况下数据纷歧致、数据内容冲突的问题。可验证凭据中因为数据持有方办理数据，关于数据纷歧致的状况，数据持有方作为数据属主、且从数据运用的视点动身，会辨认正确数据，并放弃过错数据。

5、时效性

时效性指可验证凭据是否能及时体现当时的有效性。可验证凭据数据模型标准中要求可验证凭据中有必要包括“签发时刻”特点，签发时刻包括了日期和时刻，表明该凭据开端收效的时刻。凭据失效有两种办法：一种是在签发可验证凭据时写入“失效时刻”特点，预先界说凭据的失效时刻；另一种是在凭据宣布后由凭据发行方履行吊销操作，将失效凭据参加揭露的凭据吊销注册表，在对该凭据进行验证时能够得到已被吊销的成果。

6、互操作性

可验证凭据标准为数据的跨域跨体系交互界说了一种标准格局，可用机器可读的语义网技能进行编码。符合标准的数据可被不同体系辨认和运用，再加上业界在对可验证凭据数据交流拟定协议、推动开源工程，使得不同主体之间具有互操作性。

三、可验证凭据用于数据办理的探索

（一）可验证凭据的运用方向探索

可验证凭据作为一种新式数据模型，相关于运用体系来说是一种底层技能，并不直接影响事务功用。它的多个技能特性为改进数据办理现状供给了一种新的思路。

1、进步数据质量

数据质量办理是集办法论、技能、事务和办理为一体的处理计划，影响数据质量的要素首要有技能、事务、办理三个方面。

技能方面，质量问题一般存在以下进程中：

数据模型规划，例如：数据库表结构、数据库束缚条件、数据校验规矩的规划开发不合理，形成数据录入无法校验或校验不当，引起数据重复、不完整、不精确。

数据源搜集，例如：有些数据是从出产体系搜集过来的，在出产体系中这些数据就存在重复、不完整、不精确等问题。

数据搜集进程，例如：搜集点、搜集频率、搜集内容、映射联系等搜集参数和流程设置的不正确，数据搜集接口功率低，导致的数据搜集失利、数据丢掉、数据映射和转换失利。

数据传输进程，例如：数据接口自身存在问题、数据接口参数装备过错、网络不牢靠等都会形成数据传输进程中的发生数据质量问题。

数据存储进程，例如：数据存储规划不合理，数据的存储才干有限，人为后台调整数据，引起的数据丢掉、数据无效、数据失真、记录重复。

事务和办理方面的问题大多数需求从相应的视点动身考虑，可验证凭据能够处理大多数技能原因引起的数据质量问题。

（1）数据模型规划简单

可验证凭据数据模型标准经过数年多次的修订，具有通用性、扩展性，可用于表达不同的数据目标。相比于存储于数据库的数据模型，可验证凭据供给了一个老练模板，规划难度更低。数据发生方只需求依据事务需求考虑一个凭据中包括哪些声明信息，不必考虑技能上怎么优化规划，可削减因技能才干引起的数据模型规划质量问题。

（2）数据源对数据质量背书

可验证凭据具有实在性特征。凭据发行方将其凭据模板和凭据发行服务在全网揭露以供给验证，且每个可验证凭据中有必要包括凭据发行方信息，这使得凭据发行方的行为可被追溯。凭据发行方对数据质量背书，可削减因数据源发生的质量问题。

（3）由数据模型确保的数据特性

如前文所述，可验证凭据具有安全性、完整性、可核对性、不可否认性、实在性、共同性、时效性等多种技能特性，可削减数据在搜集、传输、交流、存储等进程中发生的技能性过错，也能根绝操作人员故意修正数据作假的行为。

（4）削减事务人员数据输入过错

在传核算划中，数据输入依靠于事务人员填写表格，既花费时刻，也容易犯错。在可验证凭据模型中，凭据一切者可将已有凭据直接提交用于填表，避免了数据输入过错引起的质量问题，削减了对数据录入人员的依靠性。

2、简约的调配计划

影响隐私维护的要素一般有隐私规划和技能才干两个方面。

隐私规划理论（Privacy By Design）近年来获得国际组织、各国政府、企业及专家学者的高度认同。组织能够在体系规划阶段考虑用户个人信息维护问题，将个人信息维护的需求经过规划嵌入体系之中，拟定产品服务和商业实践的条件规矩。增强数据运用透明度、进步用户控制力、遵循数据最小化搜集均是隐私规划理论的重要实践。

技能方面的挑战一是隐私维护需求因人而异，对预先界说固定规矩的信息化体系极不友爱，隐私维护处理计划应供给灵敏的体系适配性和扩展性；二是与现有技能架构的兼容性问题，如云厂商的隐私维护计划与自身云服务接口深度结合，难以别离运用；小程序等轻客户端运用预置的密码学类库比较有限，前沿的密码学算法库无法直接加载。隐私维护计划规划应充分解耦，尽力避免依靠任何特定渠道的非通用特性。

可验证凭据模型满意以上几点要求。

（1）如前文所述，可验证凭据具有隐私性。一是数据运用需数据一切者授权；二是供给了根据特点的数据同享战略，支撑多种算法完结不同程度的数据最小化发表。一起根据特点的数据同享战略还能够灵敏的适配体系需求，不需求在体系规划时预先界说好一切权限。

（2）可验证凭据完结计划具有分层解耦的架构。W3C标准界说了底层的数据模型，数据模型上可加载不同的密码学算法，这些都是与具体渠道无关的。在运用中，由处理计划完结商依据体系环境相应的完结与上层运用通信的接口，构建一个模块化的数据交流生态体系。

3、结合区块链技能，打破“数据孤岛”，完结数据互通

当时“数据孤岛”发生的首要原因是因为商业原因不肯同享、或许因为技能妨碍而不能同享。商业原因一般包括认为用户数据是企业的战略资源、将数据同享给其它组织或运用其它组织的数据所需求的信赖成本昂扬，等等；技能原因一般指根底设施不完善，如短少互操作性、安全性，等等。

可验证凭据与区块链技能相结合有望打破“数据孤岛”的问题。两者从特性、架构上互相支撑。区块链技能被业界认为是“信赖机器”，可支撑组织在互不信赖的状况下进行协作，为可验证凭据的流转供给底层的信赖机制；可验证凭据支撑隐私数据的可信交流，为区块链技能的运用增添了一种隐私数据的链下交互机制。两者的结合已被广泛用于分布式数字身份处理计划中，用于处理互联网身份的“数据孤岛”问题。在金融监管和数据办理方面，相信两者的结合会有更精彩的运用，这需求咱们积极探索。

（二）可验证凭据的发展状况

可验证凭据数据模型符合了数据办理中的大多数痛点，能够积极尝试。一起可验证凭据技能自身无论是标准标准化研究成果仍是实际运用都取得了丰厚的发展，其老练程度能够用于实践。

1、标准逐步老练，支撑方很多

2019年11月19日，W3C可验证声明工作组发布可验证凭据数据模型（Verifiable Credentials Data Model 1.0）正式引荐标准（W3C Recommendation）。该标准的作者来自Digital Bazzar 、Consensys、Evernym等多个分布式数字身份的早期参加公司，并得到了如Christopher Allen等近百人的审理支撑。

2、运用广泛，不乏商业运用

可验证凭据作为一种参照物理凭据的中心模型和运用场景规划的数据模型，其中一种运用场景是根据可验证凭据中特点信息对用户进行身份认证、供给运用体系的授权访问，与物理凭据在现实国际中的运用类似。

在这一类运用场景中，可验证凭据一般与分布式标识符相结合，构成分布式数字身份计划。依据W3C发布的DID标准中描绘，分布式数字身份标识符（DID）是由字符串组成的标识符，用来代表一个数字身份。它注册在分布式账本上，是一种去中心化可验证的标识符，实体可自主完结DID的注册、解析、更新或许吊销操作，不需求中心注册组织就能够完结全球唯一性。

现在，运用可验证凭据技能的分布式数字身份处理计划在全球发展迅速。W3C起草的涣散标识符和可验证凭据标准发布了1.0版别；W3C的DID注册表中已注册了50多个项目；去中心化身份基金会（DIF）在推动标准的开源技能、协议和参考完结；非盈利基金会Sovrin建议的开源项目Hyperledger Indy已在多个产品中运用。

一起，可验证凭据只是一种信息体系底层的数据目标，适用于各种跨域数据交流的场景。微众银行的WeIdentity可信数据交流处理计划中就运用了可验证凭据作为数据交流的载体。将可验证凭据用于可信数据交流中，会为这一技能带来更多或许性和幻想空间。

四、结语

可验证凭据技能作为一种新式数据模型，具有安全性、隐私性、实在性、共同性、时效性、互操作性等技能特征，其标准界说和实际运用经过了时刻的检测而逐步老练。这种数据模型符合了大多数当时监管科技数据办理中存在的痛点，有助于进步数据质量、供给隐私维护合规计划、促进数据互通。

参考文献

[1]我国银行业监督办理委员会.《银行业金融组织数据办理指引（征求意见稿）》.http://www.cbrc.gov.cn/chinese/home/docView/B03260D8FEF04ECB8BD95DE873C1D189.html.

[2]《李伟：做好数据办理更快更好地推动数字化转型》.新华网,http://www.xinhuanet.com/fortune/2019-12/02/c_1125298138.htm.

[3]W3C. Verifiable Credentials Data Model 1.0: Expressing verifiable information on the web[S]. https://w3c.github.io/vc- >https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA.

[6]微众银行区块链团队. 《WeDPR计划白皮书:即时可用场景式隐私维护高效处理计划》. 2020/1.

[7]我国信通院.《“互联网+行业”个人信息维护研究报告（2020年）》.2020/3.

作者｜张一锋潘镥镥平庆瑞

来历｜《监管科技蓝皮书：我国监管科技发展报告（2020）》