2012 [HotStorage] Delta Compressed and Deduplicated Storage Using Stream-Informed Locality

Posted by Ahan on October 18, 2024

image.png

结合了两种 data reduce 技术:

  1. Deduplication:重删
  2. Delta Compression:先 delta,再压缩(LZ 算法)。

核心思路:

  1. 先做重删,对于重复的数据块,直接引用。
  2. 对于没有重复的数据块,通过 Sketch 找到类似的数据块:
    1. 如果找不到,说明是全新的块,直接压缩。
    2. 如果找到类似的,那么就可以计算出 delta。
      1. delta 部分压缩存储。

实验结果:

image.png

Delta Compression 大概能提升 1.4~3.5 倍的整体压缩率。

参考资料:https://www.usenix.org/conference/hotstorage12/workshop-program/presentation/shilane