監控系統在異構人工智能算力平臺的實踐探索
DOI:
https://doi.org/10.70695/shuysw13關鍵詞:
监控系统、数据采集、资源利用率摘要
隨著AI在垂直領域的業務規模的增長,對應的服務器及相關的服務日益增多,監控對象越來越多,監控數據的量級也成倍的上漲。鑒於監控數據量級非常龐大,數據的消費方各不相同,監控系統對於數據的處理也不盡相同,需要監控服務模塊化架構設計;通過收集和展示數據,監控系統能夠及時發現系統或應用程序的健康狀態、性能系統或應用程序的健康狀態、性能指標、錯誤情況,以確保應用程序和系統的穩定性和可靠性。基於模塊化設計理念,支持用戶自定義規則進行監控告警、實時查看監控指標趨勢變化。從而能觀察各個系統、應用程序的總體情況和所有時刻的狀態。當系統或應用程序出現或者即將出現故障時,監控系統需要迅速反應並告警,才能夠對問題進行快速的處理或者提前預防。通過系統架構設計、系統性能分析,展示了監控系統在異構 AI 算力提高資源利用率、優化任務執行效率和降低運營成本方面的顯著效果。
已發表
2024-12-31
如何引用
Wang, J., Liao, R., & Luo, J. (2024). 監控系統在異構人工智能算力平臺的實踐探索. 人工智能應用創新, 1(4), 47-53. https://doi.org/10.70695/shuysw13