火狐体育官网-火狐体育APP下载-买球首选
新闻动态
联系我们
火狐体育官网-火狐体育APP下载-买球首选
邮箱:admin@tweeebo.com
电话:0536-427009900
地址:河北省廊坊市固安县达瑞大楼175号
当前位置: 首页 > 新闻动态

新闻动态

‘火狐体育APP下载’AI基础设施革命:数据隐私保护和价值挖掘的实践思考
发布时间:2021-08-26浏览次数:
本文摘要:照片来源:阿里云盗版照片(公共编号:)本文来自数派科学技术创始人宋一民(Ethan),数派科学技术基于数据科学和工程、密码学(多方安全性计算、差别隐私etc)、联邦自学等技术体系,协助企业间开展安全隐私的数据合作。

照片来源:阿里云盗版照片(公共编号:)本文来自数派科学技术创始人宋一民(Ethan),数派科学技术基于数据科学和工程、密码学(多方安全性计算、差别隐私etc)、联邦自学等技术体系,协助企业间开展安全隐私的数据合作。Ethan在正式成立数派技术之前,曾任命Facebook助教Ads,作为tech助教从零到一的主导Facebook助教Ads,与多家500强公司基于隐私维护的数据合作项目,在数据隐私组主导了多项数据隐私安全性Ethan指出,数据隐私的维护跨越数据流通过程,是动态数据安全的数据隐私维护和价值挖掘不矛盾,数据隐私维护的着陆持续不推进新的数据,规范数据可以增加数据流通的流畅性,在收集更多数据的基础上进入价值挖掘的下一个越来越激烈的点但是,隐私计算行业还处于初期阶段,Ethan在这里分享了他对数据的思考,以及平衡隐私维护和价值挖掘的罕见技术实践。

以下是共享内容的详细庐山会议:数据流动的合理性和必然性流动链中的数据分类数据隐私和价值挖掘的平衡:如何表现数据所有者的控制力?数据控制能力管理的技术实践中数据的流动性数据从分解开始的生命周期中,在多个机构和节点之间开展时间,在节点之间开展时间的过程中数据构成了网络,像很多企业内部没有数据流动的datapipeline一样,在更宏观的水平上也没有类似的dataflow。在客观现实中,数据流不存在其合理性和必然性。另一方面,对于任何个人来说,他的数据都不会在不同的场合产生和收集。

例如,用于微信软件不会产生方位移动的信息,住宿酒店不会产生住宿信息,淘宝销售不会产生购物信息等,很难想象没有实体管理这个个个人的所有数据,另一方面,挖掘数据的过程也没有专业问题,根据市场需求的不同,挖掘几乎难以用同一个实体完成。因此,为了充分挖掘数据价值,必须尽量收集多个数据的来源,通过多个节点进行加工处理和使用。从产业的角度来看,我们经常描述互联网和人工智能之间的关系是连接产生数据,数据产生智能。

在连接和智能决策的过程中,它只是一个数据流动聚集和价值挖掘的过程。更丰富的数据维度和更好的数据复盖面积对模型的质量也很重要。

数据作为AI的原料,其流动性也是使AI充分发挥价值的基础。流动中的数据流动性具有合理性和必要性,流动中的数据在实践中如何分类定位?数据在经过不同节点的过程中,不会在不同的上下环境中提到数据的收集、存储、用于对应的前述不道德的转让。

收集主要对应原始数据的收集和构成结构化数据的过程,例如将用户操作者App的动作构成日志传达给服务器方面,或者总结用户的评论。存储和使用通常是根据字面意义保存或处理数据。

为了展开数据单体,或者利用外部力量挖掘数据,可能会涉及将这些数据的存储和使用权转让给其他方的过程。另外,考虑到这些与个人数据有关的不同,普通用户在投入数据许可时也可以注意许可协议是否明确定义了这些不同的范畴。例如,某App本身对于什么样的数据,展开多长时间的存储,该存储权转让给某App以外的其他实体。

一般来说,收集或收集数据的一方被称为第一方数据。为了更好地使用数据服务用户,第一方数据通常不会在许可中拒绝更好的权限。例如,在数据使用权中,可能会拒绝通过数据对个人用户的信息流进行更好的评价。

其中可能包括原始数据(例如,用户向哪个投稿展开拜访)的最佳化,也可能包括将一个用户的信息作为另一个用户。以前,一个实体从头到尾闭环完成的事情几乎受到限制,其中与用户的信息(可能是完整的信息,也可能是单体或一般的信息)的转让无关。这些从第一方数据中扣除数据的实体被称为第二方数据。

考虑到数据本身的商业价值和适当的法律和PR风险,在这个数据转移过程中,第一方希望尽量控制数据本身的泄漏。一般来说,协议的角度可能是规定数据的范围,规定数据可以存储的时间等。从技术的角度来看,除了个人识别标志外,还可能实现一般化的预处理(将等价的方向从明确的方向变成某个圆的范围)等,之后不会对这些方法进行非常简单的说明。

除第二方数据外,不存在根据某些特定目的收集大量原始数据的实体,目的可能是开展某些统计分析的研究(例如所有人的存款比例,所有人的年龄生产等),也可能是某些特定研究(例如某种药的安全性用于范围)除了这三方数据之外,公开发布数据的范围并不存在。公开发表数据的定义很难明确,但一般来说,爬虫类可以从互联网上获得的数据(未经数据所有者的必要许可)。

但是,在现实中,判别公开发表数据的流通是否有风险,往往与公开发表数据提供的一方对这种提供不道德有关。请注意,这里所指的公开发表数据的提供者不一定是数据的所有者,因此不会经常出现在数据的收集、存储、其他上下文中。也就是说,第一、第二或第三方实体是否获得公开发布该数据的许可。价值挖掘V.S.隐私维护-数据所有者的控制力数据权利流动中的价值挖掘可以使AI更好地发挥价值,但同时在数据流动中不需要镇地应用,也不会给数据隐私带来侵害的危险。

最近,许多金融大数据公司被立案调查,从数据来源的角度来看,最重要的原因之一是该类公司爬虫类允许存储或远远超过誓言的用途。举个例子,假如有一个App声称协助用户开展多个金融账户开展管理,综合性呈现个人现金流等信息,用户必须得到这些金融账户的访谈权限来协助App展现这些信息。

但是,在这个过程中,App对个人银行账户内的所有信息进行了捕捉和存储,将这些信息提取的标签销售给第三者,或者利用标签积极开展新的业务。由于这些过程没有告诉用户并获得许可,这是对数据使用权的欺诈。从现在的工程实践来看,解决问题和隐私的困境,现在最坏的解决方法可能是对数据享有者提供控制力,包括对数据收集的许可和收集后的保留和用于控制。

国际广泛开展的实践和规范(GDPR等)偏向于正确许可个人享受的数据及其数据的各种上下环境。例如,GDPR不会拒绝第一方的数据具体自己收集了什么样的数据样的数据,在用户有了这个目的后,应该有权自由选择保持什么样的删除的基础上,例如,不会拒绝对数据处理方法进行具体的面谈和许可,例如收集的用户赞扬的投稿的内容和类型来自学用户的兴趣这些兴趣作为标签,虽然不是原始的数据,但是用户必须展开具体的许可。我们通过给予数据的控制力来平衡数据价值的挖掘和隐私维护,在实践中经常不会出现新的挑战。

例如,在获得兴趣标签的许可时,用户不太可能事先获得几乎无限的兴趣。一般过程也是数据挖掘者先获得某个标签,然后面谈这个标签。我们在过去的工作实践中看到的最糟糕的处理方法是首先对最多3~600万人的常用兴趣进行科学知识图,整理这些兴趣包括关系和关联性,然后在包括关系在内寻找包括现在兴趣在内的一般兴趣即使如此,虽然消耗了巨大的资源,门槛也很高,但很难说是最终的,所以很多公司在应对GDPR和合规性的问题上面临着巨大的挑战并不困难。数据所有者的控制力如何表现?数据所有者控制力的核心意义是让所有者在挖掘和维护之间自由选择自己的平衡点。

为了给所有者控制力,第一步要讨论的是谁是数据所有者。一般来说,个人数据、个人身份识别信息、生物统计信息等个人描述的数据、用户的不道德信息(例如采访了哪个应用程序,在应用程序中做了什么)、这些不道德信息获得的新标签等用户分解数据特别是对于产生的标签数据,由于标签是由数据收集者自学制作的,所以所有者不应该普遍尊重收集者的想法。环绕享受者是产生数据的个人线,在整个数据生命周期链中没有第一方数据的控制、第二方的控制等问题。

对第一方来说,由于是数据的收集者,相关方面也最少。Facebook在2018年的F8中宣布给予用户控制力的功能是Clear(History)。其中描述的愿景基本上被解释为允许用户收集、存储和用于三个方面的控制力。

首先,用户不会看到Facebook从哪个合作伙伴的渠道获得用户的什么样的数据(可以收集),然后允许用户在广告投入中使用(用于控制),再次允许用户立即删除这些数据这个功能听起来很简单,但实质上对于正在运行的机构来说,要识别所有的数据来源,在简单的数据流中识别各种数据,控制某个数据的所有存储方向。对于小型机构来说,资源和投入产出的认可度过高,对于大型机构来说,由于内部数据的流动过于简单,因此为了构筑,不必实现系统整体的新设计和构筑,成本也不言而喻。例如,为了构建ClearHistory:首先,为了在数万PB的数据仓库中找到必须控制的数据,必须实现数据集整体的语义识别(由于表单的schema不统一,因此在metadata中很难正确识别数据类型)为了覆盖面积更好的存储点,没有必要根据已经获得的数据标签识别数据流的终端到终端。

所有存储点识别完成后,为了构建功能中的动态删除,必须在新的定义数据结构的基础上建立低吞吐量的中心管理系统。这个过程协商了很多内部部门,消耗了很多资源,花了一年多的时间。可以看出,企业之间的数据流通也没有潜在的类似挑战。

除第一方数据外,在许可第二方的过程中,第一方许可的目的可能是帮助数据挖掘,第二方许可的目的可能是帮助数据。第一种情况下,一般不允许再次转让,严格控制存储(控制在必要的存储范围内)。例如,建模消费行为的第二方数据往往不存在过去两周和过去两个月这两个时间点,最多两个月的消费行为的一般价值也很小。

许可保管时,一般不限制版的保管时间达到2个月(另一个例如24小时的灰色周期)。在数据的许可证上,一般对数据挖掘的目标和场景展开严格的限制版,一方面可以维持许可证人在竞争法层面的权益,另一方面也可以间接维持数据享有者的隐私。

从维护个人隐私的角度来看,假设许可的目的是计算一些用户的偿还风险,协助许可人要求不贷款的场景,如果不限定版挖掘的目的不仅仅是该合作者之间的共同报告目的,第二者有可能用于某种程度的数据第二种(数据要求)的情况下,没有特定的场景和产品展开要求、销售标签展开要求的类型。这里不会展开各种各样的数据要求,但是要特别强调的是,在要求的过程中必须注意原始数据在第二者或其他地方的溶解状况。因为一般许可人通过允许原始数据的转让(维持个人隐私),但是不允许加工的数据进行流通,也不允许在某个场合达成协议的目标。

任何方法输入的结果都不能几乎防止数据信息溶解,大量溶解不间接转让原始数据。推荐数据一般化中溶解结果的极端例子,如果允许在某个人罕见的活动区域输入小的半径圆范围,则多个半径圆可以逐渐增大对该人活动区域的判断。

公开发表数据和上述仅次于区别,因为已经公开发表,所以只要取得了数量。根据所有者对公开发表的许可,之后对公开发表数据的采集者进行许可。收集者提供公开发表数据的途径一般也以爬虫类等自主收集的形式,具有一定的收集和清扫/整理成本。

其中有趣的是,有些数据不是严格意义上的公开发表数据,或者只希望在某个特定范围内公开发表。例如,社区运营商可能只期待社区用户分解内容(UGC)在社区内公开发表,而不期待传播到互联网上。

典型的这种意愿的说明形式与Robotsexclusionstandard相似,主要用于爬虫声明站点的内容不能加载。此外,公开发表数据可能意味着可以加载,不能期待保存,例如社交网站的朋友表。朋友的表被保存和比较后,哪个朋友中止了对我的关注这样的信息,其中也没有侵犯隐私的可能性。

一般来说,为了防止这种跨境爬行不道德,公司可能会组织自己的反扒手系统,确保协议范围以外的数据控制力。综上所述,显示数据的控制力长期面临许多挑战。另外,除了第一方的数据外,沿着数据链向上回顾,这个挑战不会逐渐减少。

这种现象相当大程度上来源于数据不存在抽象化,与普通物品不同的可以复制,复制的数据控制力不会被新的定义和表现。因此,在数据流通的过程中,将数据的各种属性分管理和授权,尽可能减少数据文案的频繁出现,从而大大降低整个链条管理控制力的成本。必须研究的不是如何切断数据链,而是如何在链的各个环节更好地完成数据控制力的精细化管理。

新的产业机会——在数据流通链中控制力管理的技术实践中,解决问题的数据流通链中显示数据控制力的问题,主要方法是对不同类型的数据采取不同的方法,宏观地增加数据进行复印。那么,在明确的实践中,个人数据的隐私维护有哪些宏观分类要素和技术手段呢?从宏观上看,数据分为个人识别信息(PII)和用户特征值两种。PII是指美国的SSN、国内的身份证号码、邮件地址、电话号码等能够在高精度公开发表环境中定位人的数据。

用户特征值基本上可以解读为环绕个人行为特征或个人特征(如生物统计数据、人口统计数据等)的数据。用户特征值通常是数据挖掘产生价值的对象,PII起着统一多个特征值的作用,由PII构成的图是数据链上公司之间开展数据融合的桥梁。

可以看出,人工智能控制是数据链中构成控制的关键。没有人工智能的两个数据集很难集成在一起。PII的控制一般被称为De-identification,现在主要有脱敏(Data的Masking)、电子邮件(Anonymization)、k-电子邮件(k-anonymization)三种罕见的方式。

脱敏基本上是略去身份证的一部分,在可以识别的前提下尽量维持数据的隐私,类似于一般数据处理的一般技术。在脱敏过程中丢失信息的方法似乎缺乏足够的安全性。只要存储和溶解这样的maskeddata,最后就可以反向发售原始数据的内容,脱敏的方法在隐私拒绝低的环境中已经被使用。邮件是指变更或删除个人身份信息,隐藏数据和个人的对应关系。

一般数据来源不会自行拆解和管理这种相应的关系,因为个人身份信息几乎隐藏,所以安全性也不会远远高于完整的人工智能。同时,对于与PII相关的数据集的属性,也可以通过改变内部对应关系的组织将电子邮件数据用于与外部相关的操作者。k-电子邮件在电子邮件的基础上明确提出了个人认识不仅限于PII,任何数据构成的子集都能在一定程度上认识到一个人。

k在这里,在这个数据集中展开认识时,可以将认识的人增加到k的子集中。k-邮件是目前标准化标准较高的类别,k值越高,隐私维护效果越好,谷歌和Facebook的内部数据管理被广泛使用。用户特征值数据主要反映在价值挖掘中,用于的方法宏观上可分为原始数据和统计数据。例如,如果某人在某个时候某个地方开展购物,可以指出是原始数据,那么在过去的一天开展3次购物,可以指出是统计数据。

在很多情况下,防止原始数据的必要性,在影响价值挖掘的同时,可以更好地维持原始数据。类似的是,在链路中传输用户特征数据时使用的控制方法也很多,少见的是一般化(例如,在等价范围内不是明确的数值),统计资料(上述)、加密(例如同态加密)、差别隐私(例如等价的数值在完整的数值的基础上减少噪音)、制备(例如,将原始数据转换为代表所需的科学知识的模型或者用模型分解与原始数据的新数据不同)等。

涉及多数据安全运算环境的方式可以从多个角度来区分。例如,从不存在可靠的第三者(或者第三者的信赖成本是多少),例如GC和OT构筑的MPC几乎可以构筑不可靠的第三者的环境,基于同态密码设计和可靠硬件的环境一般强烈依赖第三者的信赖度,但是可靠的硬件环境没有信赖硬件产品供应者的额外信赖成本。

除了上述两种(MPC和可靠硬件)之外,在领导运算中维持原始数据的方法也不存在。其中有制作数据(例如,将原始数据切换为模型)的方法。例如,差别隐私(精妙的自由选择在原始数据上减少噪音,在维持原始数据的敏感性的基础上过多的干预运算本身),例如传统的一般化(只传输包括原始数据的范围)等多种方式。

在实际应用中,一般不考虑数据泄漏的危害程度(例如,人工智能数据泄漏不会导致连锁数据泄漏反应),数据是否更容易溶解(例如,低时效数据不容易溶解)等,在超过安全水平的前提下,尽量保持信息的完整性(制备、差异化和一般化在说明工程实践中的技术类型的同时,我们也希望应对实践中遇到的两个罕见的理解错误:数据隐私解决方案与单一密码学和技术点的想法不同,是融合数据科学、密码学、联邦自学、云计算的综合工程,一般是技术人员的形式,其次是数据隐私不受关注的MPC数据的流动性具有必然性和合理性,也是AI在产业中分发挥智能的基础,但数据价值挖掘方便的同时,面临侵犯隐私的危险。从目前的实践来看,给予数据享有者控制力的方式是平衡数据价值挖掘和隐私维护最有效的方式,流动中的数据链很简单,一般在数据流通过程中必须分离数据的各种属性进行管理和许可,尽量减少数据复印的频繁出现,减少整个链条管理控制力的成本。数据流程中的隐私维护是动态、过程中的数据安全和隐私,相应的技术实践也给新的产业和创造性机会。对于这个新兴产业,早期我们自由选择的方案也应该按照市场阶段逐步推进。

例如,数派技术的解决方案设计了数据流控制,数据享有者可以控制数据流向单向或双向,灵活应用于现实环境。数据隐私规范和价值挖掘是双向发展、螺旋下降的过程,只有规范数据才能在收集更多数据的基础上进入价值挖掘的下一个越来越激烈。

我们期待今后10年,在隐私规范的推进下构筑新的数据,推进AI的数据基础设施革命,在其中贡献自己的力量。特约原稿允许禁止发布。下一篇文章发表了注意事项。


本文关键词:火狐体育官网,火狐体育APP下载,火狐体育买球首选

本文来源:火狐体育官网-www.tweeebo.com