一个简短的调查为面向列的数据库的数据压缩技术

要不是Raichand^*和Rinkle王妃Aggarwal
塔帕尔大学计算机科学与工程学系帕蒂亚拉

通讯作者:要不是Raichand,电子邮件:(电子邮件保护),(电子邮件保护)

文摘

面向列的数据存储所有单个列的值被存储为一行第二列中的所有值紧随其后。这种方式有助于数据压缩存储记录自相似类型的值相同的列,可能重复。本文调查了各种数据压缩技术在面向列的数据库中。数据压缩有效地用于节省存储空间和网络带宽。它提高了查询执行的性能。专门的算法基于的类型列中存储的数据导致巨大的提高压缩比。上级比率导致更有效地利用带宽。

关键字

压缩,面向列的数据库、减压、NoSQL, HBase

介绍

数据存储的数据量不断增加,由于增加了网络和业务需求所需的资源,从而增加成本的空间和网络利用率。类型的存储tb的数据,尤其是人类可读的文本,它有利于压缩获得显著节省所需原始数据存储。压缩技术并没有在传统的关系数据库系统中使用。时间和空间之间的交换为关系数据库压缩是不多的。而将数据存储在列介绍大量的可能性从压缩算法更好的性能。面向列的数据库保存数据分组在列。后来列值存储在磁盘上连续与row-oriented连续方法的数据库存储整个行[1]。

HBase是一个最著名的NoSQL面向列的数据存储。在本文中,我们介绍了压缩技术在面向列的数据库系统。在下一节中,我们简要布局相关工作。在第三节,我们识别各种数据压缩技术适合面向列的数据存储。第四部分简要指出压缩方案,可以使用HBase。我们提供我们的结论在第五节。

压缩方案面向列的数据库

简明地介绍了各种压缩方案面向列的数据库。对于每个方案,我们首先提出一个简短的描述中使用的传统版本的计划之前行面向数据库与面向列的数据库系统,后来在[4]。

字典编码

今天的数据库系统也许词典编码方案最主要类型的压缩方案。这些计划用较小的代码替换频繁模式。column-optimized变体字典编码的新实现。行导向的混合属性数据存储基本上是不能从多个元组在一个条目从而使词典编码方案不要功能完全,因为他们只能从一个元组属性值映射到字典条目。

1)字典编码算法:字典编码算法[4]计算的比特数,X,需要编码的一个属性列(可计算的数量直接从独特属性的值)。然后计算有多少个X-bit编码值可以在1、2、3或4字节。例如,[4]如果属性有32个值,它可以编码在5位,所以1这些值可以在1个字节,3在2字节,3个字节,4或6 4个字节。假设3-value / 2字节选项被选中。在这种情况下,创建一个映射之间所有可能的3位值和原始值。例如,如果该值1是由5位编码:00000;价值25由5位编码:00001,价值31 00010 5位编码;字典会有条目(读条目从右到左)

X000000000100010 31 25 - > 1

X显示一个未使用的浪费为。解码算法对于这个例子然后简单:读2字节和查找条目字典拿回3的值。面向列的数据库非常I / O效率成为CPU限制查询的列在应用甚至少量的压缩[6]。所以I / O储蓄通过不浪费额外的空间不重要。因此,值得byte-aligning字典条目甚至获得适度的CPU资源方面的节省[2]。

2)Cache-Conscious优化[4][5]:决定是否值应该挤进1、2、3或4字节决定要求字典适合L2缓存。在上面的例子中,我们每个条目适合2字节和字典条目的数量是323 = 32768。因此字典的大小是393216字节,不到一半的L2缓存机(1 mb)。注意,对当前架构缓存大小,1或2字节将使用专门的选项。

运行长度编码

运行长度编码(RLE)是一个简单的和流行的数据压缩算法。行程长度编码压缩[2]基于替代的想法相同的长序列列一个紧凑的单数表示。因此,它非常适合列排序或有一定规模的相同的值。这些替换为三元组:运行(价值,起始位置,运行长度),每个元素的三重固定数量的比特。row-oriented系统,RLE只是用于大型有很多空格或重复字符的字符串属性。但在面向列的RLE可以更大大使用系统属性是连续存储和运行相同的价值是很常见的(主要是少列中不同值)。

零抑制

Null压缩方案有很多变种,但基本逻辑是取代连续0或空白的数据被删除,取而代之的是有多少,他们的描述存在[2]。自然,这种技术工作的大数据集上0或空格出现频繁。可变字段大小的编码的字节数需要每个字段存储在字段前缀。这让我们排除标题null需要垫一个固定大小的数据。例如,[2]的整数类型,而不是使用完整的4个字节来存储整数,我们编码的字节数的需要使用两个比特(1、2、3、4字节),把这两位整数的前缀。

Lempel-Ziv编码

Lempel-Ziv压缩算法是在1977 - 78年。Lempel-Ziv[7,8]无损压缩是应用最广泛的技术文件压缩。UNIX命令gzip仅基于该算法。Lempel-Ziv替换变量大小的模式与固定长度编码与哈夫曼编码产生可变大小的代码。提前在Lempel-Ziv编码知识模式频率不是一个需求一样它构建模式表动态编码数据。主要的思想是分析不同长度的序列输入重叠块和构建字典块看到迄今为止。后来出现的这些块替换为一个指针指向一个早些时候发生相同的块。

混合柱状压缩

一般来说,数据库表的行存储在块。通常情况下,一行是完全包含在一个块,行存储的列相邻[9]。但是太大行不能适应一块所以导致生成的行下一个块称为行chaining-but没有变化的组织下彼此列存储。这种压缩机制取代连续值与一个小得多的象征,从而减少长度的行。大量的压缩可以通过重复的值替换为一个小得多的象征。在混合柱状压缩,我们得到一个列向量为每个列,列向量压缩列向量,并存储在数据块。这组数据块压缩单元。块的压缩单元包含一组行所有的列,如图1所示。

HBASE压缩方案

HBase是Hadoop数据库。它是一个分布式、可伸缩大数据存储。我们可以使用HBase随机、实时大数据的读/写访问。BigTable的开源跟进,HBase使用BigTable的数据模型非常相似。HBase的数据行是一个可排序的行键和一个变量的列数,这是进一步分为集称为列家庭。每个数据单元在HBase可以包含多个版本的相同的数据索引的时间戳。图2 (a)代表一个HBase表作为分类地图与关系数据库的数据通常表示为表形式。表中的数据单元可以被视为一个键值对,关键是结合关键行,列和时间戳;和值是一个粗略的图2 (b)的字节数组。

HBase最重要的功能之一是使用数据压缩。这很重要,因为[1]:

1。压缩减少了从HDFS写入/读取的字节数。

2。节省了磁盘使用情况。

3所示。提高的效率从远程服务器获取数据时网络带宽。

HBase附带支持大量的压缩算法,可以在列族级启用。

1)可编解码器:HBase支持GZip和LZO,时髦的编解码器。在前进之前这些编解码器的细节让看到压缩算法比较谷歌于2005年出版

从表1我们可以看到,一些算法有更好的压缩比其他人更快在编码和解码[1]中快得多。

时髦:上口,谷歌在BSD许可下发布的,我们访问Bigtable所使用的相同的压缩(活泼的)。它的行为完全提供高速度和合理的压缩。代码是用c++写的。

LZO: Lempel-Ziv-Oberhumer (LZO)是无损数据压缩算法。专注于减压速度,写在ANSI c HBase不装货LZO因为许可证问题:HBase使用Apache许可,而LZO使用不兼容的GNU通用公共许可证(GPL)。通过添加LZO压缩支持,HBase StoreFiles (Hfiles)使用LZO压缩块写。HBase使用本机LZO库执行压缩,而本地库加载HBase通过hadoop-lzo Java库,我们建立了[1]。

GZIP: GZIP压缩算法压缩比时髦或LZO,但是比较慢。它有一个额外的节省存储空间。

结论

在本文中,我们列出了一些相当简单的数据压缩技术实现数据库的性能改进。这些技术不仅减少空间需求在磁盘和I / O性能测量记录每时间永久和临时数据,他们也减少内存的需求,从而减少缓冲区的数目错误导致I / O。面向列的很适合压缩计划压缩值超过一次一行。压缩还计划提高CPU性能通过允许数据库运营商经营直接在压缩数据。各种压缩编解码器可以使用HBase,包括LZO、时髦和GZIP。在HBase压缩编解码器工作最好可以决定多少数据就足以实现一个高效的压缩比。HFiles可以压缩和存储在HDFS。这有助于通过保存在磁盘I / O,而是为压缩和解压缩支付更高的CPU利用率而写作/阅读数据。LZO而上口有较好的压缩比和编码/解码速度。

引用

(书)? HBase:明确的指南?(第二版)。佬司乔治。O ' reilly Media, Inc ., 2011年。
d . j . Abadi s r·马登和m·费雷拉。压缩和执行在用于数据库系统的集成。在SIGMOD,
Chongxin李。?将关系数据库转换为HBase——案例研究?。
d . j . Abadi。用于数据库中查询执行系统。麻省理工学院博士学位论文,2008。博士论文
m . Zukowski p . a . Boncz n . Nes,希幔。MonetDB / X100 - DBMS的CPU缓存。IEEE数据工程公告,28(2):17个¢22岁,2005年6月。
m . Zukowski希幔,n . Nes, p . Boncz。Super-scalar ram-cpu缓存压缩。2006年ICDE。
j·齐夫和Lempel。一个通用的算法序列数据压缩。IEEE信息理论,23(3):337一个¢343,1977。
一个j·齐夫和A . Lempel。压缩的个体通过浮动利率的编码序列。IEEE Transactionson信息理论,24 (5):530 A¢536,1978。
Oracle 11 g数据压缩小贴士数据库管理员Oracle 11 g Burleson咨询技巧。
G。Graefe L.Shapiro。数据压缩和数据库性能。在ACM / ieee cs计算机协会。应用计算22 -27页,1991年4月。
b·r·艾耶和d -威尔特。数据压缩数据库的支持。VLDB的94年,页695¢704,1994。
j·戈尔茨坦,r . Ramakrishnan,轴。压缩和索引的关系。ICDE的98年,页370¢379,1998。
g·雷,j . r . Haritsa和s·瑟哈德里。数据库压缩:一个性能增强工具。1995年COMAD。
时候c·a·林奇和e·b·布朗明哥。数据压缩的应用很大书目数据基础。VLDB的81年,法国戛纳,435¢447,页1981。
p·奥尼尔和d . Quass。与变异指标改善查询性能。在SIGMOD,页38¢49,1997。
a·莫法特和j·祖贝儿。压缩和快速索引有几个g的文本数据库。澳大利亚电脑杂志,26 (1):1 A¢9,1994。
k .吴、大肠Otoo Shoshani。压缩位图索引进行高效查询处理。技术报告劳伦斯- 47807,2001。
k . Wu e . Otoo a . Shoshani和h . Nordberg。笔记压缩位向量的设计和实现。技术报告LBNL /酒吧- 3161,2001。
a . Zandi b·r·艾耶、小g·g·兰登长字母排序顺序保存数据压缩。在数据压缩会议,330¢339,页1993。
p . Boncz s Manegold和m . Kersten。数据库体系结构优化的新瓶颈:内存访问。在VLDB页54¢65,1999。
r . MacNicol和法国。Sybase智商多路复用,为分析而设计的。在VLDB,页1227¢1230,2004。
m . Stonebraker d . j . Abadi a . Batkin x, m . Cherniack m·费雷拉,刘、林a, s . Madden e·j·奥尼尔p·e·奥尼尔,葡萄干,n . Tran和s . b . Zdonik。C-Store:用于数据库管理系统。在VLDB,页553¢564,2005。