理论教育 如何优化数据存储方案:从中心到分布式

如何优化数据存储方案:从中心到分布式

时间:2023-06-03 理论教育 版权反馈
【摘要】:但是,这个HTTP是中心化的,如图10-2所示,就是集中起来的数据存储模式。二是可以为传统应用提供分布式缓存方案。当检索请求到来时,系统先通过字符串近似度范围比较,缩小检索范围,同时从附近节点拿到超媒体数据,达到类似分布式缓存的效果,大大提高了LBS应用整个检索动作的效率。另外,不再依赖主干网络的分布式网络,可以有效抵御黑客对中心化服务器的攻击,用户数据和隐私可以得到更好的保护。

如何优化数据存储方案:从中心到分布式

在讨论IPFS之前,我们先来简单梳理一下社交与Web各个发展阶段及其与IPFS、XFS等协议之间的关系,如图10-1所示。

图10-1 Web发展与社交演化及其与互联网底层协议之间的关系

社交1.0对应Web2.0的初级阶段,社交2.0对应Web2.0的中期与后期,社交3.0对应Web3.0(前面已讲过)。注意,社交3.0和Web3.0所在的很长一段时期是与早期元宇宙相互重合的。在Web1.0和大部分Web2.0阶段的互联网时期,其底层重要支撑协议就是HTTP,而在Web2.0后期和Web3.0阶段及元宇宙初期,或将采用IPFS协议,同时结合XFS协议的底层技术。

IPFS(InterPlanetary File System)是第二代互联网的底层技术,中文名叫星际文件系统,是一种基于内容寻址、版本化、点对点的超媒体传输协议,集合了P2P网络技术、比特流(BitTorrent)传输技术、Git版本控制、自证明文件系统等技术,允许网络中的参与者互相存储、索取和传输可验证的数据。IPFS的目标是补充完善并最终取代近30年来使用的超文本传输协议,也就是HTTP协议。

最早的计算机是单独运作的,有人设想通过一种方式或技术将所有计算机相互连接起来形成一个庞大的网络,这样,所有的计算机之间便可以进行数据交互、传输与存储,这项伟大的构想创造了互联网。其中使所有计算机互联的技术就是我们日常使用的HTTP,即互联网底层数据传输的规则,中文名字叫作超文本传输协议。

但是,这个HTTP是中心化的,如图10-2所示,就是集中起来的数据存储模式。举个例子,一般大点的公司都有自己的机房,这个机房链接公司内部所有的电脑,一旦机房出问题,那么这个公司的很多数据就会丢失。另外,随着网络普及、升级和各类产业、技术的融合,互联网诸如难以满足更加立体、层次丰富、内容多样的社交与商业活动,个体信息被暴露呈现完全透明化,数据丢失、被侵犯、被篡改和被贩卖等问题越来越多,越来越严重,所以人们迫切需要一种全新的技术来改变这一现状。

譬如你在微博上私信朋友一段有价值的A视频。A视频首先要回到微博中心云端服务器,然后才传输到你朋友的微博。在这个过程中,A视频数据可以被拦截,可以在微博中心被缓存,微博有一定权限的人员可以侵权查看内容,甚至可以贩卖A视频数据,等等。所以,以此类推,其实你在互联网上的一切都是透明的,没有隐私可言。当然,如果微博总服务器坏了,那么,你在微博上的所有数据就会丢失。

而在第二代IPFS去中心化的网络(图10-2)中,每一个节点都只保存文件中的一个片段,即便是一个节点被攻破,黑客也只能拿到加密的一个片段,而不能获得整个文件。

图10-2 IPFS网络与HTTP网络区别示意(www.daowen.com)

同样以上面的A视频为例。A视频上传到IPFS网络时将自动被分割成若干片段,每个片段大小为256KB,这个视频可能被分割成10个片段,也可能是20个片段,具体由视频大小而定。分割完之后,这些片段会随机分发到网络上的各个节点,这些节点就是接入IPFS网络上的计算机。当你要观看A视频的时候,这些节点就会同时向你传输并在终端实现瞬间还原。

这样既保证了整个文件只有在发送端和接收端是完整的,又保证了数据在存储和传输过程中的安全性,同时极大地提升了文件传输的速度。另外,IPFS内置的哈希容错和哈希去重技术在极大地减少存储空间和成本的同时,还能保证数据永久保存。

由此,我们可以简单归纳一下,相比HTTP网络,IPFS网络主要具有如下优点:

第一,文件传输、下载速度更快,数据存储安全可靠。

第二,避免依赖主干网,造成网络拥堵,降低了同资源冗余度,同时大大节约了海量用户使用的带宽和存储成本。

第三,可以为内容创作带来很大的自由。由于IPFS网络非中心服务器,创作者的收益没有中间商抽成。这样会激发创作者的激情。

除此之外,IPFS网络还有两项重要的好处。

一是IPFS可以与区块链完美结合。区块链的本质是分布式账本,其瓶颈之一就是账本的存储能力,目前大部分公链的最大问题是没法存储大量的超媒体数据在自己的链上。运用IPFS技术能够在一定程度上很好地解决存储瓶颈问题,最典型的应用如EOS[3] 。EOS可以支持百万级别TPS[4] 的并发量,其中除了区块链共识机制的功劳之外,还归功于其底层存储设计采取IPFS来提高大型数据的传输效率

二是可以为传统应用提供分布式缓存方案。IPFS-GEO是一个为传统LBS[5] (围绕地理位置数据而展开的服务)应用提供分布式缓存的项目,可以将地理位置坐标数据通过一定的算法转化成一维字符串,并将与之相关联的具有检索价值的数据存入IPFS网络,由IPFS网络标识唯一性,分布在各个邻近节点上。当检索请求到来时,系统先通过字符串近似度范围比较,缩小检索范围,同时从附近节点拿到超媒体数据,达到类似分布式缓存的效果,大大提高了LBS应用整个检索动作的效率。

此外,IPFS具有P2P的分布式网络技术,以目前的技术水平,使用P2P下载可以节省60%以上的带宽。可见,IPFS相对于HTTP协议更安全、更高效,使用成本更加低廉。IPFS在点对点的传输网络中,访问速度会很快,几乎不可能出现像HTTP中网络拥堵的现象。而且IPFS协议上的数据可永久保存在Web上,不再被删除。另外,不再依赖主干网络的分布式网络,可以有效抵御黑客对中心化服务器的攻击,用户数据和隐私可以得到更好的保护。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈