19-05-18(05-27補)

愛奇藝深度學習云平臺的實踐及優化_周海維

愛奇藝AI應用場景

深度學習平臺架構圖

RUNONCE優缺點

Jarvis流程圖

網絡存儲選擇,訓練任務容器,調試和狀態查詢,資源分配和管理

19-05-19(05-28補)

百度信息流產品動態降級以及故障自愈實踐_鄭焱

百度APP信息流——基于搜索和用戶畫像的個性化推薦產品

單機房容災能力建設常見問題

信息流產品機房容災能力具體實踐

故障止損決策——理想模型抽象

信息流產品降級策略設計——從產品功能角度評估每一個請求的重要性

流量切換風險控制——風險最小策略以及分步流量調度

19-05-20(05-28補)

阿里搜索中臺在DevOps&AIOps的思考及實踐_柳明

DevOps基礎調度框架,運維管控平臺

AIOps在搜索的實踐

AIOps——大促突發流量變化:彈性擴縮容;資源碎片:容器最優布局;數據量和流量自然變化:日常化容量評估;服務熱點分布不均勻:數據智能搬遷;平臺化建設

19-05-21(05-28補)

自動化運維加速無人車產品化_張一迪

研發流程中的痛點

運維目標:加速無人車產品化

無人駕駛后臺的基礎設施

加速交付,高速自動化的CI/CD流程

服務穩定性策略

監控與自愈

兼容未來需求的架構
s
19-05-22(05-28補)

基于kubernetes的網易云容器服務的持續升級實踐_婁超

網易云容器發展演進

開源系統線上升級關鍵問題

定制k8s集群持續升級的挑戰,kubernetes社區升級建議

容器“非主流”現象

是否存在熱升級方案?

集群灰度升級流程

k8s升級踩坑經歷,經驗教訓

19-05-23(06-01補)

蘇寧大企業級立體式監控的構建_湯泳

監控體系化建設

基礎設施監控

海量日志分析平臺,調用鏈監控,實時告警引擎,用戶體驗監控

19-05-24(06-01補)

隨手記統一監控平臺:架構與實踐_張越

統一監控平臺的誕生背景

故障排查效果

故障排查模型設計

Focus整體設計,關聯分析:全鏈路日志關聯;存儲設計