project accident / 99999 5min / 9999 50min / 999 8hour / 99 3.5day
s
- 國內云計算玩家
- 宕機判斷標準
不同可用性下的最大宕機時間 , http://www.rzrgm.cn/wjoyxt/p/7477095.html
| 序號 | 可用性% | 一年宕機時間 | 一月宕機時間 | 一周宕機時間 | 一天宕機時間 |
備注 運維常說的 5個9、4個9、3個9 的可靠性,到底是什么?http://www.rzrgm.cn/wjoyxt/p/7477095.html |
| 1 | 90%(1個9) | 36.50d | 72h | 16.8h | 2.4h |
- - 2023-10-24 語雀運維升級軟件造成宕機8小時 P0
- 2023-03-29 唯品會南沙機房冷凍系統故障造成宕機 P0
- |
| 2 | 99%(2個9) |
3.65d |
7.2h | 1.68h | 14.4min | |
| 3 | 99.9%(3個9) | 8.76h | 43.8min | 10.1min | 1.44min |
電腦或服務器
3個9:(1-99.9%)*365*24=8.76小時,表示該系統在連續運行1年時間里最多可能的業務中斷時間是8.76小時。
|
| 4 | 99.99%(4個9) | 52.56min | 4.38min | 1.01min | 8.66s |
企業級設備 4個9:(1-99.99%)*365*24=0.876小時=52.6分鐘,表示該系統在連續運行1年時間里最多可能的業務中斷時間是52.6分鐘。 |
| 5 | 99.999%(5個9) | 5.26min | 25.9s | 6.05s | 864.sms |
一般電信級設備 5個9:(1-99.999%)*365*24*60=5.26分鐘,表示該系統在連續運行1年時間里最多可能的業務中斷時間是5.26分鐘。 |
| 6 | 99.9999%(6個9) | 0.5min | - | - | - |
更高要求電信級設備 |
- 宕機原因分類
| 宕機原因 | 描述 | 案例 | 備注 |
|---|---|---|---|
| 內存故障 | 內存硬件或軟件故障,如內存模塊損壞、內存泄漏等 | ||
| CPU 過載 | CPU 負載過高,無法處理系統負荷 | ||
| 磁盤故障 | 硬盤或文件系統故障,導致讀寫失敗或文件系統崩潰 | ||
| 網絡問題 | 網絡連接中斷或異常,導致系統無法正常通信 | ||
| 操作系統錯誤 | 操作系統發生錯誤,如內核崩潰、系統調用失敗等 | ||
| 軟件 Bug | 程序或應用程序存在缺陷,導致系統異常 | ||
| 電源問題 | 電源供應故障,導致服務器或計算機無法正常運行 | ||
| 高溫 | 溫度過高,導致硬件故障或系統自動關機保護 | ||
| 安全攻擊 | 惡意攻擊或病毒感染,導致系統服務不穩定或崩潰 | ||
| 配置錯誤 | 錯誤的系統配置,可能導致不穩定性或無法啟動 | ||
| 軟硬件不兼容 | 不兼容的硬件或軟件組合,可能導致系統不穩定或崩潰 | ||
| 硬件故障 | 服務器的硬件組件(如電源、內存、硬盤、主板等)出現故障,導致系統無法正常工作。 | ||
| 軟件問題 | 操作系統、應用程序或驅動程序出現錯誤、崩潰或沖突,導致系統不穩定甚至宕機。 | ||
| 資源耗盡 | CPU、內存、磁盤空間或網絡帶寬等資源耗盡,使服務器無法繼續運行。 | ||
| 網絡問題 | 網絡故障、網絡攻擊(如DDoS攻擊)或網絡設備問題導致服務器無法正常訪問或通信。 | ||
| 電力問題 | 電源不穩定、電壓波動、電力供應中斷等問題導致服務器關機或宕機。 | ||
| 安全問題 | 惡意攻擊、病毒、惡意軟件或黑客入侵導致服務器宕機或無法正常工作。 | ||
| 操作錯誤 | 誤操作、配置錯誤或不當的系統管理操作可能導致服務器不穩定或宕機。 | ||
| 數據庫問題 | 數據庫故障、死鎖、數據損壞等問題可能影響應用程序和服務器的正常運行。 | ||
| 溫度問題 | 過高的溫度可能導致服務器硬件損壞或系統關機,尤其是在散熱不良的情況下。 | 2023.3.29 唯品會南沙機房高溫宕機 |
- 2024-04-08 騰訊云控制臺API故障
4 月 8 日 15:15分,我的企業微信開始收到服務器報警,報警內容大概表述的信息為:SCF(云函數)、COS(對象存儲)、數據萬象出現 API 請求問題,原因均為:[TencentCloudSDKException]message:An internal error has occurred. Retry your request, but if the problem persists, contact us.
17:16 分,官方微博宣布整體恢復,除了上海 API 服務之外其他的均以恢復。目測只是個別服務的 API 不可用。
- 2023-11-27/28 滴滴因系統故障導致App服務異常,不顯示定位且無法打車



滴滴在實施Kubernetes (K8s) 時,曾遭遇多次故障,主要涉及集群管理、服務調度、資源分配等方面。以下是滴滴的一些典型K8s故障復盤的重點:
1. K8s 集群崩潰
原因: 大量請求對 API Server 和 ETCD 施加了超負荷壓力,導致集群控制平面無法響應。
解決方案: 滴滴通過優化 ETCD 存儲結構、對 API Server 進行限流和分區管理來緩解壓力。還將集群管理工具進行擴展,提升監控和日志分析能力。
2. 服務調度不穩定
原因: Kubernetes 的調度器無法根據實際資源利用率進行合理的 Pod 分配,造成了部分節點資源過載,而其他節點資源空閑。
解決方案: 滴滴對調度策略進行了調整,增加了自定義的資源打分邏輯,并引入基于歷史數據的預測模型,提升調度的智能化水平。
3. 網絡故障導致服務中斷
原因: Flannel 網絡插件的配置錯誤,以及跨數據中心網絡連接不穩定,造成服務無法正常通信。
解決方案: 滴滴更換了網絡插件,將 Flannel 替換為性能更好的 Calico,并通過引入服務網格 (Service Mesh) 進行流量治理。還提升了網絡監控能力,提前檢測并解決潛在的網絡瓶頸。
4. 容器資源超賣
原因: 在計算資源配置時,部分節點 CPU 和內存超額分配,導致容器應用在資源競爭下無法正常運行。
解決方案: 滴滴通過改進資源限額配置,嚴格限制每個容器的最大資源使用。還引入了動態伸縮機制,確保服務能根據流量變化自動調配資源。
5. CI/CD 流水線卡頓
原因: Kubernetes 在與滴滴內部的 CI/CD 系統整合時,由于構建任務過多,CI 系統負載過高,部署時間拉長。
解決方案: 通過優化構建流水線,減少冗余的編譯和部署步驟。同時,滴滴還引入了基于 Kubernetes 的自動化測試和灰度發布策略。
6. 日志與監控缺失
原因: 早期 Kubernetes 集群缺乏足夠的日志和監控手段,導致故障出現時無法迅速定位問題。
解決方案: 滴滴通過集成 Prometheus 和 ELK 堆棧(Elasticsearch, Logstash, Kibana),實現了對容器和集群的全面監控,提升了故障排查和響應速度。
經驗總結:
故障預防: 提升監控和預警系統,及時感知異常。
自動化運維: 利用 CI/CD 流水線、自動化測試、灰度發布降低人為操作帶來的風險。
資源優化: 科學配置資源限額,避免超賣導致的性能瓶頸。
定制化策略: 根據自身業務特點對 Kubernetes 的調度、網絡和存儲等功能進行深度定制。
滴滴在 K8s 使用過程中逐漸積累了經驗,并且通過不斷優化和調整,最終提升了集群的穩定性和可用性。
- 2023-11-12 阿里云宕機事件
https://status.aliyun.com/#/historyEvent
- 2023-10-24 語雀宕機8小時
https://juejin.cn/post/7293448323527983130
語雀方面表示,10月23日下午,服務語雀的數據存儲運維團隊在進行升級操作時,由于新的運維升級工具bug,導致華東地區生產環境存儲服務器被誤下線。

- 2023-10-10 工商銀行美國子公司勒索病毒事件分析
https://zhuanlan.zhihu.com/p/667394006
事件過程
2023年10月10日
Citrix Bleed漏洞被披露。
2023年10月25日
AssetNote公布Citrix Bleed漏洞的PoC以及分析。
2023年11月9日
ICBC Financial Services遭受了勒索病毒攻擊。
2023年11月10日
網絡犯罪組織Lockbit在Tox(一款加密通訊軟件)上證實其入侵ICBC Financial Services的行為。
2023年11月13日
Lockbit代表通過Tox告訴路透社ICBC交了贖金,但并未透露贖金金額(TLP RED)。
事件分析
據瑞典網絡安全公司 Truesec 創始人 Marcus Murray 表示,此次事件中Lockbit使用的勒索軟件為LockBit 3.0。
有關此次入侵手段的消息大多指向CVE-2023-4966(Citrix NetScaler ADC & Citrix NetScaler Gateway信息泄露漏洞),攻擊者通過未打補丁的Citrix NetScaler設備進行了入侵。
CVE-2023-4966是Citrix的一個緩沖區溢出漏洞,由于Citrix的開發者對snprintf函數返回值的理解有誤,造成了緩沖區越界讀取,從而導致了敏感信息(會話Cookie)的泄露。
漏洞位于/netscaler/nsppe二進制文件中,nsppe是NetScaler的數據包處理引擎,它包含完整的 TCP/IP 網絡堆棧以及多個 HTTP 服務。在13.1-49.15和13.1-48.47的nsppe對比中,可以發現ns_aaa_oauth_send_openid_config和ns_aaa_oauthrp_send_openid_config執行了額外的邊界檢查,這些兩個函數都分別可以通過/oauth/idp/.well-known/openid-configuration和/oauth/rp/.well-known/openid-configuration進行未經身份驗證的訪問。
作者:hu1y40 , 2023年11月17日 , 洞源實驗室
全球云服務企業思杰Citrix發布公開信,宣布正式退出中國市場。該決定將于2023年12月3日生效。
- 2023-11-08 22點 ChatGPT 服務中斷近 2 小時
北京時間 11 月 8 日晚 22 點左右,OpenAI 旗下 ChatGPT 以及相關 API 出現中斷故障,導致面向用戶和開發者的服務近 2 小時無法正常使用。

- 2023-06-08 廣東電信大規模無服務,4/5G信號恢復到2G,4小時

去年1月12日凌晨,有大量用戶反映中國電信出現斷網,波及全國多個城市。隨后,中國電信回復稱,“由于網絡設備故障,導致出現互聯網擁塞。”
2021年12月10日,陜西電信也發生過突發性大規模斷網事件。陜西電信回應,該次事故是由于中國電信陜西公司互聯網域名解析服務出現故障導致的,西安、渭南、寶雞等地部分網站登錄受到影響。
截至2023年4月底,中國電信總客戶數首次超過4億,今年凈增超過900萬,其中5G套餐用戶2.87億,今年凈增1927萬。
據“廣東信息通信業”微信公眾號,針對6月8日下午廣東電信突發網絡中斷故障,8日晚,廣東省通信管理局召集廣東電信、廣東移動、廣東聯通、廣東廣電、廣東鐵塔相關負責人召開網絡運行安全緊急調度會。廣東電信通報稱,在工信部和中國電信(601728)集團公司的遠程指揮下,廣東省通信管理局現場指揮,廣東電信一線處置,通過緊急采取重啟鏈路等措施,全力進行故障搶修。截至6月8日17時50分,廣東電信網絡運行恢復正常。局黨組書記、局長蔡立志強調,電信網絡是重要信息基礎設施,關系國計民生,與社會生活和生產經營息息相關,全行業要高度重視電信網絡運行安全。廣東電信要深入查明原因,做好后續處置,加強網絡運行保障。
- 2023-05-24 微軟一個代碼拼寫錯誤引發微軟 Azure 故障,17 個生產級數據庫被刪
https://www.oschina.net/news/244118/microsoft-azure-outage-brazil
事件背景起源于,Azure DevOps 工程師有時需要對生產數據庫的快照進行保存,以調查報告的問題或測試性能改進。為了確保這些快照數據庫得到清理,會有一個專門的后臺每天運行,系統會在設定的時間段后刪除舊快照。
在 Sprint 222 期間,Azure DevOps 工程師升級了代碼庫,將已棄用的 Microsoft.Azure.Managment.* 包替換為受支持的 Azure.ResourceManager.* NuGet 包。此舉連帶了大量的 pull request 變更請求,以尋求將舊包中的 API 調用替換為新包中的 API 調用。而其中就隱藏了有關快照刪除作業中的一個拼寫錯誤,它將刪除 Azure SQL 數據庫的調用換成了刪除托管數據庫的 Azure SQL Server 的調用。
Eric 稱,運行此代碼的條件很少見,因此測試機制沒有很好地覆蓋。
- 2023-03-29 唯品會南沙機房冷凍系統故障造成宕機

后續唯品會對此次事件嚴肅處理,對應部門的直接管理者承擔此次事故責任,基礎平臺部負責人予以免職作相應處理。
《關于329機房宕機故障處理公告》【唯品會通-[2023]年-[019]號】顯示,2023年3月29日(00:14-12:01)),南沙IDC冷凍系統故障導致機房設備溫度快速升高宕機,造成線上商城停止服務。此次南沙機房重大故障影響時間持續12個小時,導致公司業績損失超億元,影響客戶達800多萬,公司將此次故障判定為P0級故障。
有業內人士表示,P0屬于最高級別事故,比如崩潰、頁面無法訪問、主流程不通、主功能未實現,或在影響面上影響很大(即使Bug本身不嚴重)。值得注意的是,此次機房事故影響的不僅唯品會一家,微信、QQ等騰訊旗下社交軟件出現功能異常,包括微信語音對話、朋友圈、微信支付,以及QQ文件傳輸、QQ空間和QQ郵箱在內的多個功能無法使用。事后騰訊也定義為一級事故,對大量相關領導做出了處罰。
- 2023-03-29 廣州電信冷卻機房故障導致凌晨騰訊微信+QQ 一級事故
2023 年 3 月 29 日凌晨,騰訊旗下的微信和 QQ 等業務曾出現崩潰狀況,包括微信語音對話、朋友圈、微信支付,以及 QQ 文件傳輸、QQ 空間和 QQ 郵箱在內的多個功能無法使用。
直到 29 日早間,騰訊微信團隊才回應表示,經工程師搶修,系統正在逐步恢復。
本次事故由廣州電信機房冷卻系統故障導致,騰訊將它定義為公司一級事故,并對大量相關領導做出了處罰。
- 2023-03-05 20點20分 B站嗶哩嗶哩 崩虧
https://www.oschina.net/news/231236
2023 年 3 月 5 日晚 20:20 左右,許多網友表示在使用 B 站時,手機和電腦端都無法訪問視頻詳情頁,且手機端無法查看收藏夾與歷史記錄。還有網友表示,首頁能夠正常加載,但全部是繁體字。
8 月 4 日晚間,距離上次事故 5 個月后,又有許多網友反饋 B 站圖片(視頻封面)無法加載、視頻無法打開、視頻一直在緩沖。
B 站上一次大規模崩潰是 2021 年 7 月 13 日,被成為「713 事故」,曾被反復拉出來鞭尸。
2021 年 7 月 13 日 22:52,SRE 收到大量服務和域名的接入層不可用報警,客服側開始收到大量用戶反饋 B 站無法使用,同時內部同學也反饋 B 站無法打開,甚至 APP 首頁也無法打開。
基于報警內容,SRE 第一時間懷疑機房、網絡、四層 LB、七層 SLB 等基礎設施出現問題。
- 2023年1月11日 美國民航系統癱瘓
2023年1月11日,美國民航系統于當地時間周三早間癱瘓,導致當日9時全美所有航班禁飛,超過4000架次國內國際航班延誤,據 FlightAware 數據顯示,截至美東時間8時50分,全美約698架次航班取消。
這次故障可能源于飛行任務通知系統的一個文件損壞,而在緊急情況下使用的備份系統也發現了損壞文件,美國聯邦航空管理局被迫重啟系統,導致航班大面積延誤或取消。
- 2022-10-27 馬斯克收購推特,2023 大規模崩潰6次
馬斯克接手推特后,2023 年才過去兩個多月就出現了 6 次大規模崩潰:
- 1 月 23 日,Android 用戶無法加載新推文或發布新推文
- 2 月 8 日,用戶發現無法轉發和發送推文,因為被系統提示 “超過了每天發送的條數限制”
- 2 月 15 日,推文停止加載
- 2 月 18 日,Timeline 無法加載,回復消失
- 3 月 1 日,Timeline 和 “為你推薦” 再度停止運行
- 3 月 6 日,無法訪問圖片和鏈接
![]()
-
今年 2 月初,推特宣布不再免費提供 API 給用戶(此舉被認為是打壓第三方推特客戶端)。為此,它們面向開發者構建了一個新的付費 API。但由于馬斯克的大刀闊斧裁員,最后只有一名負責網站可靠性的工程師參與了該項目。據一名現任員工稱,這名工程師周一進行了一次 “錯誤的配置更改”,并 “破壞了整個 Twitter API”。
對于此次事故,馬斯克在推特上回復稱是一個細小的 API 改動導致了巨大的影響。這也說明推特的代碼非常脆弱,需要徹底的重構。
不過員工則表示,推特背負著許多技術債,如果現在就要徹底重構,那么整個推特都會崩潰。
- 2022年3月和5月 招商證券三個月崩2次
- 2021年10月5日 Facebook史上最嚴重宕機長達7小時,市值蒸發數百億
2021年10月5日,Facebook、Messenger、Instagram和WhatsApp等Facebook旗下應用均出現故障。
聲明中稱:“據我們工程團隊的了解,協調數據中心之間網絡流量的主干路由器的配置變化導致了通信中斷,由此對我們數據中心的通信方式產生了連帶影響,使我們的服務陷入停頓。”
- 2021年3月份 歐洲云計算巨頭OVH數據中心大火
2021年3月份,歐洲云計算巨頭OVH位于法國斯特拉斯堡的數據中心發生嚴重火災,該區域總共有 4 個數據中心,其中一個數據中心被完全燒毀。大火6個小時才被撲滅。
據了解,此次多達360萬個網站下線。受到此次大火影響的客戶包括歐洲航天局的數據與信息訪問服務ONDA項目,此項目負責為用戶托管地理空間數據并在云端構建應用程序。Rust旗下的游戲工作室Facepunch Studios證實,有25臺服務器被燒毀,他們的數據已在這場大火中全部丟失。即使數據中心重新上線后,也無法恢復任何數據。
- 2020年9月23日 特斯拉系統遭全球性宕機
從美東時間9月23日11點開始,特斯拉車主便無法通過手機App連接到汽車上。同樣的問題也發生在特斯拉的能源產品上,特斯拉太陽能和Powerwall儲能電池用戶無法監控他們的系統。

有用戶在宕機追蹤網站Down Detetor上表示,特斯拉App在iPhone上顯示已經“凍結”,卸載、重新下載了后App則顯示“出現錯誤”。受到影響的車主大部分來自美國,英國、德國、俄羅斯等歐洲國家的車主也報告了類似的問題,一些中國車主也反映了特斯拉App手機鑰匙斷開連接的問題。
有網友在推特求救稱,自己在一個沙漠的超級充電樁,但被鎖在Model 3車外了,特斯拉App無法連接到車上,已經撥打緊急道路救援電話快兩小時了。
這并非特斯拉第一次出現全系統的宕機。早在2018年4月21日,從下午開始一直到次日早上,眾多特斯拉車主經歷了長時間的App宕機。當時,特斯拉承認出現了問題并表示當日晚間已經修復,但許多車主在次日早上仍在經歷同樣的問題。而2017年3月7日,特斯拉的APP和API停機幾乎長達24小時。
案例問題2:充電樁物聯卡流量消耗超4GB/天,進而導致無法充電。原因:異常日志log死循環打印消耗流量導致。
- 2018年11月9日 百度宕機系運營商DNS問題
2018年11月9日,百度網站疑似崩潰,移動端和網頁端均無法打開。對此百度方面回應稱,系運營商DNS問題,影響北京聯通部分用戶。
- 2013年6月 斯諾登曝光棱鏡門
2013年6月,前中情局(CIA)職員愛德華·斯諾登將兩份絕密資料交給英國《衛報》和美國《華盛頓郵報》,并告之媒體何時發表。
- 2011年12月 CSDN 600w數據庫拖庫事件
https://baike.baidu.com/item/%E5%AF%86%E7%A0%81%E5%A4%96%E6%B3%84%E9%97%A8/4976608#1
2011年12月,CSDN的安全系統遭到黑客攻擊,600萬用戶的登錄名、密碼及郵箱遭到泄漏。隨后,CSDN密碼外泄門持續發酵,天涯、世紀佳緣等網站相繼被曝用戶數據遭泄密。天涯網于12月25日發布致歉信,稱天涯4000萬用戶隱私遭到黑客泄露。此次失竊的只是密碼集,用戶只要及時修改密碼即可避免隱私失竊,因此不用恐慌。但用戶修改密碼只是“治標”,網站改變數據存放策略才是“治本”。
- 插曲1:非誠勿擾, 首播時間2010年1月15日 ,自各種數據庫被爆,可以首先核對誰是海王。
- 插曲2:20111111, 當時的SN用戶數有5千萬。
- 2007年 美國棱鏡門啟動(PRISM)
- 微軟、雅虎、谷歌、Facebook、PalTalk、YouTube、Skype、AOL、蘋果 9家國際網絡巨頭參與。
end


浙公網安備 33010602011771號