理论教育 互联网搜索:如何保护你的隐私?

互联网搜索:如何保护你的隐私?

时间:2023-06-14 理论教育 版权反馈
【摘要】:例如,患有某些疾病,或有酗酒、赌博等恶习。图8-5的左边部分表示互联网上的三类用户信息被搜索引擎“爬取”,进入索引数据库中。这是进行基于搜索引擎的隐私挖掘攻击的必要启动条件。目前已有的隐私安全保护方法,通常只能解决某一类具体环境中的隐私攻击问题,不适合基于搜索引擎的隐私挖掘攻击涉及整个Web的具体情况。

互联网搜索:如何保护你的隐私?

随着信息技术的快速发展和信息量的剧增,互联网已成为海量信息空间。它吸引了越来越多的信息进入其中。随着时代的发展,信息的来源也在逐渐发生变化:由初期的网站建设者和管理者作为唯一的信息发布者的模式,逐渐转变为普通Web用户人人均可作为信息发布者的共享合作模式。由于Web信息发布的开放性与低门槛,网络中的信息量越来越大,同时信息的组成也越来越复杂,其中有一部分是与用户有关的个人信息。虽然关于某个用户的信息通常分散分布在看似没有任何联系的多个网页上,但是今天的Web已经被多个索引擎高度索引了,搜索引擎强大的索引能力能够帮助人们找到所需要的信息,但也为恶意的隐私挖掘者提供了便利。

(一)隐私攻击过程模型

网络上与Web用户有关的信息多种多样。为了形式化地描述该问题,根据性质的不同,我们将Web上与用户有关的个人信息分为如下三类。

(1)身份信息(以I表示):一个人公开的社会化身份。例如,社会安全号、身份证号、姓名、职业和所属公司等,这类信息通常被用以唯一地确认用户的身份。

(2)隐私敏感信息(以S表示):与用户个人隐私相关的所有信息。例如,患有某些疾病,或有酗酒、赌博等恶习。值得注意的是,隐私信息并没有固定的界限,是根据不同用户的定义进行调整的。

(3)其他信息(以O表示):除I信息和S信息外的所有信息,这类信息不会直接显示用户的身份,也不会直接涉及隐私,例如,兴趣、教育水平、婚姻状态等信息。这类信息常被用作判断某个数据项是否属于某个用户的辅助判断条件。

同时给出基于搜索隐私的隐私挖掘攻击的定义:隐私攻击者使用搜索引擎寻找并收集Web上的关于某一用户的个人信息,直到获得该用户的身份信息和隐私敏感信息为止。

经过抽象与简化,基于搜索引擎的隐私挖掘攻击的核心过程如图8-5所示。

图8-5的左边部分表示互联网上的三类用户信息被搜索引擎“爬取”,进入索引数据库中。图右边部分表示隐私挖掘攻击的全过程。

(www.daowen.com)

图8-5 基于搜索引擎的Web隐私挖掘模型框架

在发起隐私挖掘之前,攻击者已知用户的一些信息,称为已知集。这是进行基于搜索引擎的隐私挖掘攻击的必要启动条件。它可能是I信息、S信息或O信息,甚至可能同时包含I和O信息、S和O信息。如果已知信息中包含I信息,则攻击者的目的是找到该用户相应的S信息,反之亦然。

为了不失一般性,我们假设攻击者最初拥有的信息是I信息,以已知集中的信息作为查询关键字,通过搜索引擎发起信息的收集。当攻击者得到搜索引擎的返回结果页面时,从这些网页中抽取出目前还未知的、有价值的信息项,并根据某些判断条件判别某个信息项是否属于该用户。新找到的信息可能是I、S、O信息或它们的组合。

若新找到的信息包含S信息,而且经过判断能够断定它们是关于该用户的信息,则该受害者用户的身份信息和隐私信息均已被攻击者获取,用户的隐私泄露,隐私攻击成功。若新找到的信息仅包含I信息和O信息,则将经过判断后能够断定确实属于该用户的数据项插入已知集中。在下一轮查询中,攻击者从已知集选取数据项作为关键字,再使用搜索引擎进行新信息的查找。然后检查本轮查询中新找到的信息是否包含该用户的S信息。

隐私信息挖掘攻击是一个循环的过程,攻击者不断重复上述过程,收集该用户分散在Web上的所有信息,直至找到S信息为止。之前查询的返回结果被用作之后查询的输入关键字。通过网页的信息之间的关联关系,该用户分散在网络各处的信息将被逐渐收集到一起,导致信息被挖掘。如果将上述的隐私挖掘循环过程展开,得到的隐私攻击过程类似于一条路径。沿着这条路径,攻击者能够将Web用户的I信息和S信息关联起来。每一次成功的隐私挖掘攻击都能够视为一条联通的隐私挖掘路径。

(二)隐私泄露自动探测服务

基于搜索引擎的隐私挖掘攻击的本质是挖掘Web上公开的、能够被搜索引擎所索引到的信息之间的关联关系,从而获取用户的隐私。然而,用户通常不会记得自己在Web上发布过的所有信息,因此该问题易被忽略且难以预防。

目前已有的隐私安全保护方法,通常只能解决某一类具体环境中的隐私攻击问题,不适合基于搜索引擎的隐私挖掘攻击涉及整个Web的具体情况。本节主要针对该情况,介绍基于图最优选择的隐私泄露自动探测服务,相应算法能够为Web用户检测已存在于网络上的信息是否会因为基于搜索引擎的隐私挖掘攻击而导致隐私泄露,从而为用户发布信息提供参考。隐私泄露自动检测方法能够有效帮助用户抵御隐私挖掘攻击,其基本流程是:①收集用户分散在Web上的信息,并记录每一步使用搜索引擎的关键字,形成“用户信息结构图”;②对用户信息图进行合并化简,减低图的规模;③考虑顶点影响因素空间,为顶点赋一个合理的概率值,表明此顶点属于该用户的可能性值;④在图上进行隐私挖掘路径的查找,即从含有I信息的顶点到含有S信息的顶点之间的联通概率值最大的路径。

该服务实际上是以隐私攻击者的角度,根据每个用户的信息分布状态图,尝试寻找I信息和S信息之间的通路,并评估该通路可能存在的概率值。

隐私泄露自动探测服务是一种由可信的第三方提供的服务,担心自己在Web上发布信息会导致隐私泄露的用户可以订购这种服务。在实际的隐私挖掘过程中,某一个数据项应被归为哪一类个人信息(I、S或O)是不固定的,需要根据不同用户的要求进行归类。例如,一些用户认为他们的手机号码是个人隐私,应该属于S信息;而另一些用户可能更愿意公开他们的手机号码,以便与其他网友更方便地交流,这些用户会把手机号归为O 信息或I信息。Web用户需要提供个人对信息分类的要求,作为隐私探测服务算法的输入。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈