《基于网络编码存储系统中的远程检测.docx》由会员分享,可在线阅读,更多相关《基于网络编码存储系统中的远程检测.docx(9页珍藏版)》请在优知文库上搜索。
1、基于网络编码的存储系统中的远程检测远程数据检查(RDC)是一种技术,客户端可以建立外包在不受信任的效劳器上的数据保持不变的随着时间的推移。RDC是有用的作为一种预防工具,允许客户端定期检查是否数据己被破坏,以及修复工具每当检测到己损坏。最初提议在单个效劳器的上下文中,RDC后来犷大到在依靠复制和擦除编码,数据存储在多个效劳器冗余的分布式的存储系统中验证数据的完整性。最近,一种技术提出了添加冗余基于网络编码技术,由于其显著低通信开销来修复损坏的效劳器提供有趣的权衡。不同于以往关于RDC侧重于预防阶段的本钱最小化的工作,我们采取整体上来看,主动调查的RDC方案依靠网络编码,以预防和修复阶段合并的本
2、钱最小化的分布式系统。我们建议RDC数控、平安和高效RDC水印的网络编码为根底的分布式的存储系统。RDC数控缓解源于网络编码的根本原那么的新的攻击。这项方案是能够保持在对抗性设置维修组件通过网络编码在一个良性的设置的最小的通信开销。我们执行我们的方案和实验说明它是计算上的开销为客户端和效劳器类别和主题描述符H.3.2信息存储和检索:信息存储:E.4编码和信息理论:过失控制编码一般条款平安性,可靠性,性能关键字远程数据检杳,网络编码,归档存储,平安,分布式存储系统、重放攻击、污染攻击1 .介绍远程数据检查(RDC)已被证明是有价值的技术,(作为一个验证程序)的客户端可以更加有效确实立是不受信任的
3、效劳器上存储的数据保持不变的随着时间的推移。这种保证是必须确保数据外包在数据中心或云存储提供商的长期可靠性。当用一台效劳器,远程数据检查的最有价值的用途在于其预防能力范围内:验证程序可以定期检查效劳器上的数据拥有,因而可以检测到数据损坏。然而,一旦检测到损坏,单效劳器设置不一定允许数据恢复。因此,远程数据检查有必须辅以存储在多个效劳器的冗余数据。这种方式,验证程序可以使用远程数据检查每个效劳器,以及根据检测数据撮坏,在任何一台效劳器,它可以使用其余正常运行的效劳器,通过将数据存储在一个新的效劳器上复原所需的冗余级别。在分布式的存储系统中引入冗余的主要途径是通过复制,擦除编码,以及最近通过网络编
4、码8,9。数据复制的根本原理是存储在不同的存储效劳器数据的多个副本而擦除编码的原始数据被编码成了跨多个存储效劳器存储的碎片。在网络编码,编码的块存储跨效劳器计算为线性组合的原始数据块。网络编码的分布式的存储系统和应用场景.网络编码存储8,9提供了非同寻常的性能,很适合去深档案的商店,其特点是读很少的工作量。网络编码的参数使读取数据比数据维护更贵。与纠删码类似,网络编码可用于冗余编码成碎片的文件和存储这些碎片在n效劳器,以便该文件可以被恢复(和读取)从k的任何效劳器。然而,网络编码提供擦除编码时编码的片段是由于效劳器故障而丧失,需要进行重构,以保持同样水平的可靠性有显著优势:新编码的片段可以通过
5、联系一些正常运行的效劳器(修复带宽可低至修复片段)构造最优最小的通讯本钱。这是与传统纠删码,例如里德所罗门码19必须重建整个文件然后再恢复丧失数据形成鲜明比照。最近的结果,网络编码存储中建立维护带宽可以减少相比,标准的纠删码的数量级。建议使用网络编码存储中虽然有一个缺点:该代码不是系统性;它不会嵌入编码的输出作为输入。小局部的文件无法读取而不需要重构整个文件。在线存储系统不使用网络编码,因为他们更喜欢以优化性能读(共同操作)。他们使用系统码来支持对数据的子文件访问。网络编码存储真的只意义系统中哪些数据修复发生更多经常比读。规管存储、数据托管和深存档应用程序目前读很少相配的网络编码性能的工作负载
6、。这些应用程序用在任何时间段期间被访问的几个对象保存为将来能够访问数据。许多这些应用程序不需要子文件的访问:他们检索他们的全部文件。审计提出了几个例子,包括根据萨班斯-奥克斯利法案七年保持业务记录和隐瞒五年的报税表。只有那些正在审核或修改正的记录需要访问,但保存所有数据是-个法律或法规的要求。医疗纪录是同样适用的。约翰斯霍普金斯大学医学图像归档保存所有的MRI.CAT扫描,和X射线图像中收集超过6的中央储存库的医院,铅。图像的一小局部是有史以来访问历史跟踪的病人或类似情况下的结局进行研究。保存系统用于存储旧书籍、手稿、数据集还提出读很少的工作量。此外,标准归档存储1表示作为不可分割的-揽子方案
7、的数据并不支持子文件访问。在应用程序中,数据的大小和读取的次数决定性能的存储维护,重新编码,减轻设备或系统故障引起的数据丧失主导读取的性能要求。长期的可靠性采取全面的方法。为了确保长期数据的可靠性在分布式的存储系统中,数据冗余存储在多个效劳器后,我们可以松散地分类验证为两个分量的行动:预防和修复.在预防组件,验证程序使用远程数据检查协议以确保在存储效劳器上数据的完整性。在修复组件,调用时在任何效劳器检测到数据损坏时,客户端使用正常运行的效劳器的数据恢复所需的冗余级别。在存储系统的生命周期内,预防和修复组件将交替。最后,还将检索组件,其中客户端恢复原始数据(尽管这很少发生的存档存储系统)。在本文
8、中,我们采取综合方法,并建议新技术来防止合并的本钱最小化和修复组件。以往关于远程数据检查的工作完全侧重于预防组件的本钱最小化(例如,复制7和纠删码24,4基于方法)。然而,在我们考虑的分布式的存储设置,修复组件的本钱很高因为段长的时间效劳器失败,需要重新分发到新的效劳器上的数据。我们的工作是基于最近在分布式存储8,9.利用网络编码实现通信开销的修复组件擦除基于编码方法相比显著减少编码的工作。然而,这项工作提出了一种良性的设置。从本质上说,我们寻求在对抗性设置维修组件的最小的通信开销时使用网络编码维护。为实现这一目标的主要挑战来自于网络编码的本质:在修复阶段,客户端必须确保效劳器,而无需对原始数
9、据的访问方面的编码操作的正确性。同时,客户端存储应该保持小和不断随着时间推移,以符合外包存储的概念。需要签入的远程数据的分布式存储系统.归档存储还需要反思和数据检查,以确保数据受到保护,并可以检索。因为很少会读取数据,它是缺乏以仅检查的正确性和检索数据的完整性。存储错误,设备故障,撕裂写入17、21发现潜在错误和管理不善,可能会损坏数据无法发觉。此外,存储提供商可能希望在试图保护他们的声誉或删除恶意地减少开支2的数据隐藏数据丧失事件。深层归档应用程序使用数据中心、云存储和数据的管理与第三方驻留在其中的对等存储系统18:不是用数据的所有者。这进一步加强了数据所有者检查存储数据的保存状态需要审核是
10、否第三方履行其义务,以保存数据。性能特性的远程数据检查的协议例如可证明数据拥有2和15,检索证明也符合读很少的工作负载。这些协议允许-名核数师,以保证数据都完好无损地保存在存储和检索使用的客户端元数据的恒定量、恒定量的网络交通,和(最重要的是)通过阅读数量恒定的文件碎片2o大型档案数据集让人望而却步,定期读取每个字节。检查协议的远程数据样本存储的数据,以实现概率的保证。当结合纠错码,保证能到达信心1010实际参数6.纠错码确保少量的数据损坏做没有损坏,因为可能由代码,恢复损坏的数据和大量的数据腐败很容易被发觉,因为他们必须腐败要克服了冗余的数据块多。远程数据校验和网络编码的结合使得专门管理少量
11、的读取很少归档,你可以检测到数据损坏,从使用分段线性的文件大小的I/O数据恢复:每个文件来检测损伤和I/O量与损伤修复文件的恒定量I/O。奉献。在本文中,我们采取整体看看远程数据检查和考虑预防和修复组件的组合的本钱最小化的分布式的存储系统。我们提出了小说的RDC方案建立在最近的工作,在编码的分布式的存储系统中,利用网络编码以实现显著减少通信开销修复组件相比,擦除编码为根底的方法的根底上(I尽我们所知,我们是第-次审议检查网络编码为根底的分布式的存储系统依赖于不受信任的效劳器的远程数据。在这方面,我们识别新的攻击,并提出新型RDC方案网络基于编码的存储系统。具体来说,我们提出了以下奉献:一我们采
12、取综合方法,并建议新的远程数据检查预防和修复组件的组合的本钱最小化的分布式的存储系统的方案。网络编码为根底的系统表现出修复组件在-个良性的设置最小的通信开销。我们方案在对抗性设置的网络通信开销优势基于编码在擦除基于编码的系统保存。-我们的RDC方案克服对网络编码为根底的分布式的存储系统(详见局部3)是唯-的挑战:I不同单效劳器RDC方案2、15、22,只能检测是否腐败存在某处的数据中,实际的考虑需要RDC方案进行本地化多效劳器设置中的故障效劳器。I不像擦除基于编码的分布式的存储系统,网络编码系统缺乏一个固定的文件布局,使它具有挑战性的RDC方案,随着时间的推移保持恒定的客户端存储。表1:各RD
13、C方案参数。我们假设我们的方案RDC数控使用MBR代码,以尽量减少总的效劳器存储(更多细节在局部3.1.5)增加的额外约束下。在修复阶段,我们描述了案件的费用一个存储效劳器失败时I相比擦除编码为根底的分布式系统,网络编码为根底的系统很容易受到更多攻击。我们确定的重播和污染的攻击。RDC方案成功地减轻这些攻击。假设要使其变为无害的重播攻击,我们使用一个简单而有效的解决方案:网络编码系数都存储在效劳器上进行加密此外,客户端就是那个选择编码系数和强制他们使用。为了防止污染攻击,我们使用一个额外维修核查标记,允许客户端进行检杳一台效劳器结合其块正确修复阶段。-我们对如何运用网络编码在依赖于不受信任的效
14、劳器(秒3.1.5)的分布式的存储系统的上下文中提供指引。我们通过实验评价拟议的RDC方案的执行情况。解决方案概述。表1比拟了我们的方案(RDCNC)与以往的RDC方案。在RDC数控中添加冗余基板基于网络编码,而在以前的工作根据有关复制和纠删码。为了确保预防组件的平安性,我们适应RDC技术中的单效劳器设置22使用。我们提出一项方案,只有数据所有者可以检杳数据拥有(即,它是私下核查)。然而,我们的方案可以使用扩展的技术2,22为实现预防阶段(即,任何人,而不仅仅是数据的所有者,可以挑战要证明数据拥有的效劳器的可公开懿证性。对于修复组件的平安性,我们的解决方案可确保所派遣的效劳器提供的数据是有效的
15、和在系统中保存所需的冗余量。最终,这将确保原始数据可以在任意多的维修后回收。我们确定的重播攻击可能会导致减少数据冗余,类似于在网络设置中,在中间节点转发非创新数据包确定由江等人14的墙攻击。然而,江etal.解决方案依赖于检查新的编码的数据包是否线性独立与以前编码的所有数据包。在我们的分布式的存储环境中,他们的解决方案不能维护维修组件的最小的通信开销。我们确定污染攻击是通信的类似与网络编码技术使用来提高吞吐量网络时可能出现的污染攻击。工作上的签名系网络编码3,11确保中间节点正确执行编码操作。然而,我们存储设置是不同的因为客户端是选择编码系数和强制他们效劳器所使用的那个。而且解决方案11中的,
16、每个编码的术后导致编码区块的大小增加,不能用于长期存储设置维修业务是无界。2 .在分布式的存储系统上的背景我们给概要提出r要跨多个存储效劳器存储冗余数据的分布式的存储系统的主要途径:编码为根底,基于复制的擦除和基于编码的网络。这些都是有效的非对抗性的设置,只有良性故障会在哪里发生。对于每个,我们概述本钱存储冗余数据的存储和网络本钱,当一个效劳器出现故障时恢复所需的冗余级别。我们还制订数据恢复条件下,捕获量而不会影响恢复原始数据的能力是可以容忍的腐败。这些方法都是图I所示我们认为需要冗余存储文件F我们表示jjF的大小)。要表达修复组件的网络开销,我们将定义为网络开销因素之间的需要(从正常运行的效劳器)中检索的数据量的比率作为创立新的效劳器上存储的数据量。这将是我们主要的度量来测量维修组件的通信本钱。2.1 复制(拷贝)复