監控系統在異構人工智能算力平臺的實踐探索

作者

  • Jinhua Wang Guangzhou AIdynamic Technology Co., Ltd. 作者
  • Ruiyi Liao 作者
  • Jianfang Luo 作者

DOI:

https://doi.org/10.70695/shuysw13

關鍵詞:

监控系统、数据采集、资源利用率

摘要

隨著AI在垂直領域的業務規模的增長,對應的服務器及相關的服務日益增多,監控對象越來越多,監控數據的量級也成倍的上漲。鑒於監控數據量級非常龐大,數據的消費方各不相同,監控系統對於數據的處理也不盡相同,需要監控服務模塊化架構設計;通過收集和展示數據,監控系統能夠及時發現系統或應用程序的健康狀態、性能系統或應用程序的健康狀態、性能指標、錯誤情況,以確保應用程序和系統的穩定性和可靠性。基於模塊化設計理念,支持用戶自定義規則進行監控告警、實時查看監控指標趨勢變化。從而能觀察各個系統、應用程序的總體情況和所有時刻的狀態。當系統或應用程序出現或者即將出現故障時,監控系統需要迅速反應並告警,才能夠對問題進行快速的處理或者提前預防。通過系統架構設計、系統性能分析,展示了監控系統在異構 AI 算力提高資源利用率、優化任務執行效率和降低運營成本方面的顯著效果。

已發表

2024-12-31