结合了两种 data reduce 技术:
- Deduplication:重删
- Delta Compression:先 delta,再压缩(LZ 算法)。
核心思路:
- 先做重删,对于重复的数据块,直接引用。
- 对于没有重复的数据块,通过 Sketch 找到类似的数据块:
- 如果找不到,说明是全新的块,直接压缩。
- 如果找到类似的,那么就可以计算出 delta。
- delta 部分压缩存储。
实验结果:
Delta Compression 大概能提升 1.4~3.5 倍的整体压缩率。
参考资料:https://www.usenix.org/conference/hotstorage12/workshop-program/presentation/shilane