Ahan Blog

「生命在于体验和传承」

稳定性——常见的故障注入方法

常见的故障注入方法 进程故障 强制终止进程:kill -9 $pid 暂停进程的执行:kill -19 $pid 恢复暂停的进程:kill -18 $pid 容器故障 容器故障直接删除pod:kubectl delete pod $podname -n$ns 主机故障 重启 reboot 重启 reboot -f:正常情况下,系统在重启时会执行一系列操作,比如通知正...

稳定性——故障演练

故障演练是一种通过模拟生产环境中可能出现的故障,检验和提升系统可靠性、稳定性以及应急响应能力的实践活动。 目的 提升系统韧性 帮助团队提前发现系统潜在的脆弱点。例如,在分布式系统中,某个节点故障可能导致服务不可用。通过故障演练,可以确定系统在这种情况下是否能够自动切换到其他节点,或者是否有足够的冗余来保证服务的持续提供。 增强系统对各种故障场景的容...

稳定性——测试

测试 在保障系统和服务的稳定性方面,测试是至关重要的环节。测试在稳定性建设中的重要性体现在以下几个方面:它能够发现问题、验证设计、提升系统可靠性、降低风险,并为稳定性优化提供数据支持。不同类型的测试方法(如单元测试、系统测试、长稳测试、拨测、故障演练)各有侧重点,共同保障系统的稳定性。 (1)发现和定位问题 测试是发现问题的最前线。通过精心设计的测试用例,我们能够尽早发现代码缺陷、性能...

灰度发布

什么是灰度 灰度是指让软件逐步地、可控地发布到线上的过程。通过灰度过程,我们有机会可以观察变更对系统的影响,从而判断当前的上线过程是否健康,是否需要回滚。最终确保整个变更的过程稳定性。 灰度核心能力 灰度的核心能力包括三个部分: 可控 可验证 可回滚 可控 可控指通过分阶段发布、功能开关和容量预估等手段,确保发布过程中的影响范围受控,风险最小化,便于快速检测和回滚...

单点故障

什么是单点故障 单点故障(英语:single point of failure,缩写SPOF)是指系统中一点失效,就会让整个系统无法运作的部件,换句话说,单点故障即会整体故障。 毫无疑问,单点故障是我们在考虑稳定性问题里不得不在一开始就考虑的问题,所有高度可用的系统(商务系统、软件系统或工业系统)不会希望有单点故障造成整体故障的情形。 那么什么是“单点”呢?在”单点故障”这个术语中,”单...

2012 [HotStorage] Delta Compressed and Deduplicated Storage Using Stream-Informed Locality

结合了两种 data reduce 技术: Deduplication:重删 Delta Compression:先 delta,再压缩(LZ 算法)。 核心思路: 先做重删,对于重复的数据块,直接引用。 对于没有重复的数据块,通过 Sketch 找到类似的数据块: 如果找不到,说明是全新的块,直接压缩。 如果找到类似的,那么...

2022[FAST]Separating Data via Block Invalidation Time Inference for Write Amplification Reduction in Log-Structured Storage

背景和问题 云上块存储,通常是基于append-only的底层存储实现的,数据以block为单位被append到segment中。 segment 中包含多个block,其中一部分是有效的,一部分是无效的。 需要通过 GC 来回收无效的block,并把segment中有效的block重新写入新的segment,以回收旧的segment。 GC的过程,会带来写放大(writ...

FAST '20 - HotRing: A Hotspot-Aware In-Memory Key-Value Store

问题背景 数据热点:热点问题在in-memory KVS中被忽视了。从阿里巴巴生产环境的in-memory KVS中,本文发现50%~90%的请求只访问了1%的items。 为了解决热点问题,有以下的思路: 文章提出了一种HotRing的热点感知KV数据结构,它具有以下特性: ordered-ring hash。把热点数据靠近头节点以快速访问 提供轻量级、运行态的热...

2020【ieee】an in Depth analysis of cloud block storage workloads in large Scale production

块存储系统支持现代云服务中各种类型的应用程序。对其I/O活动进行表征对指导更好的系统设计和优化至关重要。论文通过来自阿里巴巴云的数十亿I/O请求的块级I/O跟踪,对生产云块存储工作负载进行了深入分析。 论文研究了负载强度、空间模式和时间模式的特征,提供了15个发现,并讨论它们对云块存储系统中的负载平衡、缓存效率和存储集群管理的影响。 相关的 trace 数据集已经公开:https://g...

数据去重综述——A Comprehensive Study of the Past, Present, and Future of Data Deduplication

概述 数据去重(Data Deduplication,也称为数据重删),作为一种高效的数据减少方法,由于数字数据的爆炸式增长,在大规模存储系统中越来越受到关注和青睐。它通过在文件或子文件级别消除冗余数据,并通过其具有密码学安全哈希签名(即抗碰撞指纹)来识别重复内容,这在大规模存储系统中被证明比传统的压缩方法更具计算效率。 介绍 图1显示了数据去重的一般工作流程。 Chunk...