19-05-18(05-27補)
愛奇藝深度學習云平臺的實踐及優化_周海維
愛奇藝AI應用場景
深度學習平臺架構圖
RUNONCE優缺點
Jarvis流程圖
網絡存儲選擇,訓練任務容器,調試和狀態查詢,資源分配和管理
19-05-19(05-28補)
百度信息流產品動態降級以及故障自愈實踐_鄭焱
百度APP信息流——基于搜索和用戶畫像的個性化推薦產品
單機房容災能力建設常見問題
信息流產品機房容災能力具體實踐
故障止損決策——理想模型抽象
信息流產品降級策略設計——從產品功能角度評估每一個請求的重要性
流量切換風險控制——風險最小策略以及分步流量調度
19-05-20(05-28補)
阿里搜索中臺在DevOps&AIOps的思考及實踐_柳明
DevOps基礎調度框架,運維管控平臺
AIOps在搜索的實踐
AIOps——大促突發流量變化:彈性擴縮容;資源碎片:容器最優布局;數據量和流量自然變化:日常化容量評估;服務熱點分布不均勻:數據智能搬遷;平臺化建設
19-05-21(05-28補)
自動化運維加速無人車產品化_張一迪
研發流程中的痛點
運維目標:加速無人車產品化
無人駕駛后臺的基礎設施
加速交付,高速自動化的CI/CD流程
服務穩定性策略
監控與自愈
兼容未來需求的架構
s
19-05-22(05-28補)
基于kubernetes的網易云容器服務的持續升級實踐_婁超
網易云容器發展演進
開源系統線上升級關鍵問題
定制k8s集群持續升級的挑戰,kubernetes社區升級建議
容器“非主流”現象
是否存在熱升級方案?
集群灰度升級流程
k8s升級踩坑經歷,經驗教訓
19-05-23(06-01補)
蘇寧大企業級立體式監控的構建_湯泳
監控體系化建設
基礎設施監控
海量日志分析平臺,調用鏈監控,實時告警引擎,用戶體驗監控
19-05-24(06-01補)
隨手記統一監控平臺:架構與實踐_張越
統一監控平臺的誕生背景
故障排查效果
故障排查模型設計
Focus整體設計,關聯分析:全鏈路日志關聯;存儲設計
浙公網安備 33010602011771號