自言自语

I'm Wang Xianyuan, writing for myself, more studying, more experience…

5whys分析法在美团工程师中的实践摘录

By

最近腾讯云的天价索赔公关把“运维事故”这个话题拉入了业内人士的关注范围内。摘录一则方法贴出来,我想这个方法同样适用于另一些事故和执行上的经验积累来使用。

利用5why分析法来进行Casestudy原因分析的几个步骤。

Step 1:对事故进行详细描述
“If I had an hour to save the world,I would spend 59 minutes defining the problem and one minute finding solutions.”
– Albert Einstein

对于事故进行定义和描述比较重要,这一步不可省略。在描述事故时,我们基于5W2H(What,Who,Where,When,Why,How,How much)分析法来对事故进行描述,说清楚事故发生的时间,地点,发现人,怎样解决的,解决的时间等等。

What:描述下发生了什么问题。
Who:描述下责任人是谁,谁发现的问题,谁解决的问题。
Where:描述下在哪里发现的事故。
When:描述下事故的时间因素,什么时候发现的事故,什么时间解决的事故。
Why:描述下为什么是个事故,强调事故的影响。
How:描述下事故是怎样被解决的。
How much:描述下事故的可量化的影响范围和造成的损失,影响了多少用户,造成了多少损失等等。

Step 2:提问:为什么这问题会发生?
识别并确认导致当前问题发生的直接原因。如果原因是可见的,验证它。如果原因是不可见的,考虑潜在原因并核实最可能的原因。

Step 3:检验上一步中发现的原因是否是根本原因?
检查上一步中的回答的原因是否是导致事故的根本原因,如果不是,则重复Step2和Step3,直至找到事故发生的根本原因为止,最终通过这样一个过程建立一个通向根本原因的原因/效果关系链。这个过程一般需要持续5次为什么(可能少于或多于5个),这也是5whys分析法名字的由来。

Step 4:找到问题发生的根本原因,制定执行计划并修复
找到问题发生的根本原因后,采取明确的措施和手段去处理问题,预防和避免类似问题的再次发生。对于采取的纠正措施和手段,需要问问“采取后能否避免问题的再次发生”,如果不能,再找到其他的解决之道。

via

Leave a Reply