司法区块链的海量数据存储、流转安全和隐私保护实现

司法区块链将区块链的可信存储、可信计算能力,力求覆盖司法机关工作全流程,旨在建立起司法业务数字可信体系,助力司法机关履行职能,协助法律职业共同体提供更高质量的专业服务。

司法领域区块链创新发展-头图
出处:可信区块链推进计划

“以事实为依据,以法律为准绳”是司法的重要原则,最大限度还原客观事实,确认法律事实,正确、公正地执行和适用法律,是司法的核心。随着司法改革不断深入,司法机关职能配置更加优化,司法能力不断增强,司法民主、司法公开、司法公正成效显著,但公平正义依然是司法活动的永恒目标。公平正义体现在每宗案件中,而事实真相则藏在每个证据的背后。

当前,互联网、大数据、云计算迅速发展,电子数据正在或已经成为最主要的证据形式。欲最大程度地“还原事实”,实现“更高水平的公平正义”,有必要建立司法领域的数字可信体系,以促进更高水平的“数字正义”实现。司法区块链将区块链的可信存储、可信计算能力,与严密、规范的司法程序规范相结合,力求覆盖司法机关工作全流程,旨在建立起司法业务数字可信体系,助力司法机关履行职能,协助法律职业共同体提供更高质量的专业服务。

司法区块链与其他区块链存在显著差异,主要表现在以下两个方面:

一是数据存证方式不同。目前我国绝大多数区块链存证均采用哈希存证的方式,即对需要存证的电子数据计算哈希值,再将哈希值上链保存,数据本体保存于独立的存证管理系统的文件存储和数据库中,这与司法活动的查明事实的重要需求仍有相当差距。司法机关和法律职业共同体更加希望实现从源头对电子数据内容的固化,最大可能保障电子数据的原始或真实状态,从而确保案件证据材料、卷宗材料等的真实性和可信性。因此司法领域更强调对电子数据本体的固化保存,防止非法手段对电子数据本体的随意篡改、伪造和灭失。

二是数据存证目的不同。司法区块链不仅关注数据的上链固化保存,更加关注对存证数据“可信”价值的挖掘。除了版权保护方面数据存证内容有一定的交易保护目的外,绝大多数的电子数据存证目的在于可信价值的共享和应用。一方面可以由区块链直接利用链上数据,结合链上智能合约、链下可信扩容计算等技术,产生司法业务所需的可信计算结果,如隐私计算利用零知识证明、同态加密、多方计算等算法,在不泄露链上保存的敏感数据内容的前提下,产生业务所需的隐私计算结果。另一方面,由于司法业务本身的复杂性,参与部门众多,利用区块链技术可信,建立不同部门、司法区块链之间的互认互信至关重要,通过提供跨链互联和跨链协同,有效提升司法业务协同效率。

司法区块链数据主要分为结构化数据、非结构化数据、数字价值凭证以及智能合约四大类链上数据。司法区块链系统与其它技术领域显著不同之处在于不仅利用哈希上链方式确认数据是否被篡改,更加关注结构化数据和非结构化数据的本体固化保存,从而确保数据本体的长久保真。

上链前的数据真实性保障

互联网时代下,司法审慎对包括涉及线上业务的案件审理提出了更高的电子证据要求。最高院于 2021 年 8 月 1 日起要求施行的《人民法院在线诉讼规则》以及《最高人民法院关于民事诉讼证据的若干规定》中对上链前数据的真实性审查制定了详细的规定。规定指出,线上案件审理过程中法院不仅需要审查上链后电子证据真实性,在对方提出抗辩时,还需要针对上链前电子证据的真实性进行严格审查。

由于电子证据的特殊属性,其上链前的数据真实性目前存在几种保障机制:一是由具有公信力的单位为数据提供真实性保障;二是通过数据生成机制保障真实性;三是通过其他证据或鉴定意见相互印证的方式来保障真实性。

1、 审查数据来源单位公信力以确保证据真实性

通过审查数据来源的方式确保上链前电子数据真实性,是指电子数据是由具有执法能力的单位或个人通过法律规定的合法程序取得的,并由当事人直接上链进行存证。比如当事人向法庭申请证据保全,法庭在审查其合理性后,会派专人进行电子证据保全的采集和固化。通过这种方式取得并保存的电子证据,在上链前与上链后都是真实的,但这种方式取决于数据生成单位自身强大的背书,例如法院和公安。

2、 以数据生成机制确保证据真实性

通过数据生成机制的方式保障真实性是指通过技术手段,在数据生成设备生成数据的时候同步上链,确保该数据在上链前没有被篡改。比如结合电子签名系统,某些电子数据如合约、合同等,需要当事人进行签字后才正式生效,将电子签名与数据上链功能衔接在一起,在当事人签完名后就直接上链存证,通过这种方式确保上链前和上链后的数据都是真实的。在实践中,有方案是通过“区块链+物联网”方式保障电子证据的真实性,物联网设备或音视频采集设备采集信息时,设备在获得信息时同步上链,确保电子数据的真实性得到充分保障。

3、 以互相印证方式保证数据真实性

互相印证的方式是指在数据上链前,对已取得的电子证据进行公证、司法鉴定等鉴定措施,对上链前的数据进行鉴定,同时将鉴定结论与电子数据同步上链。也可以通过第三方见证或关联印证的方式,在数据上链前对电子证据的真实性进行认定,并在认定完成后同步将印证结果与电子数据同步上链。

通过以上几种方式,可以对电子证据在上链前进行真实性的验证,同时结合上链后数据的防篡改属性,确保链上证据的真实性,极大缩短法庭审查证据的时间,提高司法工作效率和区块链价值。

海量数据的存储和读取

1、 混合结构数据的存储

当前市场上有三种主流区块链存证解决方案。第一种是数据哈希上链、结构化数据保存于中心化数据库中,非结构化数据保存于传统存储方案中。第二种是结构化数据保存于区块链账本中,并利用账本同步机制,在区块链节点服务器上复制多个账本副本;非结构化数据则采用数据哈希上链,数据本体保存于 IPFS 或其他分布式文件存储系统中。第三种是结构化数据保存于区块链账本中,并利用账本同步机制,在区块链节点服务器上复制多个账本副本;将非结构化数据分布式保存于区块链节点本地存储中,并利用共识机制实现非结构化数据本体在区块链节点网络中的多副本复制,非结构化数据的链上保存完全由区块链控制,没有其它手段可以直接获取。

目前司法区块链存证解决方案多采用哈希存证的第一种方案,即存证数据的哈希上链保存,数据本体保存于独立的存证管理系统的文件存储和数据库中,这与司法领域的本质需求有着较大差距。司法领域更加希望实现从源头对电子数据进行固化,从而最大可能保障电子证据原始取得效力,确保案件卷宗材料、司法证据材料等的真实性、可信性。因此司法领域对电子数据本体的固化保存技术手段存在探索前景,并且需要有安全防护手段避免电子数据本体被随意篡改、伪造和灭失。

2、 非结构化数据的存储

当前,在司法区块链系统中,图片和视频应用等非结构化数据的电子数据存证需求不断增加,结构化与非结构化数据混合存证的情形越来越多。对于非结构化数据来说,其在全球数据总量的占比越来越大,动辄数 PB 级别,传统面向结构化数据的技术和架构存在局限性。司法区块链系统中,海量非结构化数据给上链数据的存储和读取都带来巨大挑战。大部分提供司法存证服务的区块链公司面对非结构化数据时以哈希存证作为解决方案。

就这些非结构化数据存储的硬件来看,出于成本考虑往往需要依托通用服务器承载。多台松耦合的通用服务器组成的集群也面临分布式存储的问题。即便是已经大规模投入使用的商业分布式存储产品和Gluster 和 Ceph 等开源项目能够对数据进行管理,但硬件环境也面临诸多问题,例如更换工作环境出现性能问题、稳定性问题等。为促进集群服务器的性能稳定,有必要针对非结构化数据开发优化读写的专用产品,以针对性地解决海量数据读写性能和管理的问题。

就非结构化数据的当前存储解决方案看,网络接入存储(Network Attached Storage,NAS)的层次结构和格式虽然使文件易于分类排序,速度快、用户友好且得到广泛支持,但由于可伸缩性差而导致面对非结构化数据日益力不从心。对象存储(Object-based Storage)技术基于元数据的独立封装加快了对象的排序、分类和查找,存储节点采用分布式集群方式工作能实现独立弹性扩容,分布式架构和多设备冗余存储能实现数据可靠和资源隔离。但其缺点在于适用于低频读写应用场景,高频读写场景较难胜任,且数据一致性方面也存在不足之处。分层存储技术将数据分为高频访问的热数据和低频访问的冷数据,把数据存储在不同层级,并在层级间根据访问频度迁移数据,成为海量数据存储的较好方案,解决了存储成本与性能的平衡问题。

数据流转安全和隐私保护

随区块链应用在不同司法系统的普及,跨区域、跨层级、跨系统、跨机构、跨用户之间的互操作需求愈发强烈,如跨链取证、跨链仲裁、数据共享等。互操作分为纵向和横向两类形式。纵向主要指上下级机构间,比如基层法院与所属中院的互操作,横向指互不隶属的机构间, 比如公检法司协同互操作场景。在不同的场景中,数据标准、系统建设技术等各不相同。而且司法行业的大量敏感数据在互操作中需要充分保障数据的隐私性和安全性,这种互操作属于系统性工程,需要技术手段和制度手段的双重保障来实现可信安全共享和互操作。

1、 跨链技术可靠支撑数据流转

异地部署的司法区块链系统更可信,但在取证调用时需要进行互操作,互操作包括应用层互操作、链间互操作和链下数据互操作三方面。经调研认为,司法异地取证更多是关于联盟链之间的“链间互操作”。跨链技术是实现互操作性的关键。目前,跨链技术方案主要包括中继链、公证人机制、侧链、哈希时间锁定、分布式私钥控制、原子互换协议、桥接技术、链中链等。

就目前实操看,业界较多以“中继链+跨链网关+二阶段提交”组合的方式解决联盟链跨链问题,实现数据跨网跨域互通、多级业务协同、联合征信等多链融合。在跨链取证视频、图片等非结构化数据时,数据源文件往往存储在法院,中继链在跨链调用时验证文件真实性并对信息进行哈希同步,但此种解决方案存在中继链泄露隐私的潜在风险。

在跨链网络的安全稳定与隐私保护方面,厂商对联盟链多采用登记审核的方式管理接入网络底层链。在跨链的接入方式方面,有厂商提供了开放接口及SDK 和适配器服务,以简化底层链的接入工作。在消除不同底层链之间数据结构、报文格式、接口形式等方面的差异方面,厂商对区块头等关键数据结构进行抽象,统一关键数据结构、报文格式等。纵向互操作有采取链上原文共享配合哈希验证的方案,横向互操作有采用 BitxMesh 等跨链平台技术配合哈希验证的方案,实现同构、异构区块链间跨链互通,并提供完备的跨链隐私保护和事务管理机制,完成司法区块链跨地区跨链证据调用场景的支撑。

2、 通道隔离和访问控制确保数据隐私安全

在司法区块链系统的建设过程中,数据安全备受关注。基于区块链的联盟链涉及多节点和多参与方,由此导致数据的管理和安全隐私保障重要性与日提升。敏感数据的分享、访问和查看需要获得授权。司法区块链系统的数据隐私保护手段包括三部分:数据加密,指将原始数据加密后存储于链下,并将其对应的元数据存储于链上;加密传输,是指通过 SSL 或TLS 安全通道将链下的加密文件和其对应的元数据进行传输;数据访问控制,是指对原始数据进行脱敏处理,将脱敏数据或计算结果反馈至需求方。

在加密传输环节,往往设有通道隔离机制以从网络层面对数据进行隔离,保护数据只对通道内节点可见。通过对账本进行隔离,每个节点只处理并存储自己所在通道的数据,防止攻击者访问数据,从而保护用户隐私。通道隔离机制的实现技术可以分为链下通道隔离和多链通道隔离两大类。链下通道隔离是指用户在区块链上记录起始的状态创建通道,随后在链下进行交易,具体数据通过智能合约中的数据安全保障机制保证安全,但不公布记录在区块链上,需要中止交易时, 再将最新的结束状态公布并记录在区块链上,终止交易通道。多链通道隔离是在特定节点之间构建独立通信网络作为通道,该网络中信息单独存放在子账本中,非通道内节点不能访问,同一节点可以加入多条不同通道中。多链通道隔离通过在网络层面构建子网络实现节点通信隔离,杜绝攻击者访问隐私信息,从而保护用户隐私。

在数据访问控制环节,主要技术包括零知识证明和环签名技术。零知识证明协议中存在证明者和验证者两种角色。证明者向验证者提供证据证明某命题成立,但不泄露除结论外的其他任何信息,验证者需要验证该证明的正确性。环签名技术允许团队中的成员以团队名义对消息进行数字签名,其他人只能验证签名者是否属于该团队中,从而保护个人隐私,但群管理员可以披露签名者的具体身份。

3、 预言机实现跨系统数据调用的接口安全

司法区块链的互操作实现方式包括跨链验证、预言机和 API 网关三种。预言机作为智能合约与外部世界交互的接口,可以查找链外数据和验证,以加密的方式将准确可靠的数据提交给智能合约使用,从而实现不同司法区块链上数据的可信共享和流转,打破数据孤岛效应,加快司法业务协同效率。

本文摘编自可信区块链推进计划2022年12月发布的《司法领域区块链创新发展白皮书(2022年)》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。