什么是数据脱敏
企业信息系统中的各类数据库、大数据平台的数据是重要资产。这些重要的数据中可能包含各种用户隐私和敏感信息,如:
用户隐私信息:身份证号码、生日、各类账号、地址等;
用户敏感信息:消费信息、资产信息、个人隐私病历信息、酒店纪录、通讯记录、 位置信息、家庭信息、支付信息等。
从企业和商业客户来讲,保护敏感数据是一项很好的商业惯例。 因为,泄露机密客户、财务及员工的数据会造成重大的财产、法律和名誉损失。
在我国金融行业、政府行业、电子商务、网络应用等诸多领域,数据脱敏是数据库数据治理的关键一环、也是大数据平台整体数据安全解决方案的必要组成部分。数据脱敏需要注意以下几点:
数据挖掘需要采取不同的数据脱敏方法来支持不同的挖掘应用
需要有快速、实时脱敏、多副本、不同子集的脱敏
DSG 的Enhanced ETL脱敏功能
产品特点:
基于上述痛点,DSG公司依托Enhanced ETL这一全球领先的实时数据库复制转换产品的不同模块,适应市场需求的新变化,灵活、快速组合了技术领先的数据脱敏产品及解决方案。
该产品的特点如下:
Enhanced ETL产品底层技术成熟,主要基于日志分析的手段,实现实时复制、转换功能,实现高效、短时间准备各种版本的脱敏数据功能;其与传统的数据脱敏依赖于包装JDBC/ODBC的ETL工具方法有本质区别,突破了传统方式的低效率、高干扰源生产环境、影响时效性等缺陷,提高效率数倍甚至数十倍!
其中QETL模块可以实现多表关联,再加上脱敏算法库模块,可以实现多种脱敏场景,特别适合金融公司、证券、保险等众多大中型企业使用;
Enhanced ETL数据脱敏可以实现全量脱敏、实时增量脱敏操作,且在抽取数据时对源生产端的干扰可以保持在2-5%百分点的影响;其中,增量脱敏是DSG独家核心技术;
每小时的数据脱敏量可以达到数百GB/小时的高性能指标;
该架构可以灵活部署,可以将数据脱敏后的数据发送装载到多种数据库,并广泛支持各类大数据平台、数据仓库等,极易实现对数据脱敏后的应用测试和数据分析、数据挖掘等不同场景。

图 Enhanced ETL支持的各种数据环境
数据脱敏类型:
数据脱敏首先研究和分类定义各个列的脱敏属性,可以分以下四种列类型:
可识别列(隐私):可确定某个人的单列,称为可识别列,如身份证号、姓名、个人独有地址等;
半识别列(隐私):可潜在识别某人的多列组合,这些组合列被称为半识别列,如邮编、生日、性别、公司地址、家庭地址、银行帐号、卡号等。(注:美国一份研究论文称,仅使用邮编号,生日和性别信息即可识别87%的美国人);
敏感信息列:包含用户敏感信息的列,如各种消费额,疾病、收入、位置等;
非敏感信息列:上述三点除外、不包含用户敏感信息的列。
DSG的数据脱敏原理:
DSG数据脱敏产品可通过数据接口,由用户自定义自动采集数据时间间隔自动发现(方式有两种:全表探测和比例采样)敏感数据,通过内置脱敏算法完成数据的脱敏操作并下发装载到用户指定位置。其原理如下图所示。

技术

DSG脱敏产品是一个开放的、支持多环境的平台:
源端支持: DB2、Oracle 、SQL server 、MySQL、Informix、PostgreSQL、国产数据库如 KDB、Dameng、人大金仓等;
目标端支持:上述各类数据库、支持大数据平台,如Hbase、Hive、HDFS等大数据生态组件;
数据类型:支持各类文件、LOB、CLOB 等;
内置多种算法:随机查表替换、洗牌混淆、时间老化、哈希脱敏、唯一数据映射变换、Truncation、Floor等,可由用户定制各类算法;
可以运行在Unix、Linux、Windows等环境。
其中,增量脱敏是DSG独家核心技术,增量自动发现运行完成后,会提供敏感数据分布报表,并自动给出脱敏方案建议。
功能
主功能模块分为:用户和权限管理、算法管理、监控报表、数据接口、任务管理、业务配置、系统配置,实现界面化的操作。

界面
