🚨 Alarm Rules - 告警規則說明
📘 功能概述
JBL 提供一套靈活的告警監控模型,用於即時偵測使用者流失、響應異常與 ISP 品質問題,並在符合條件時觸發警示,協助您提早識別系統異常、資源瓶頸或潛在服務中斷風險。
📊 告警規則一覽
| 編號 / 類型 | 觸發頻率 | 告警條件 | 監控目標 |
|---|---|---|---|
[AR01]Domain人數 | 每小時 | 當前人數與上週及上上週做比較, 若前兩週人數皆大於 400 且當前人數低於前兩週的 15%,則: 綠色:正常 黃色:1~2 小時異常 紅色:連續 3 小時異常 | 檢查 site domain 使用人數是否異常流失 |
[AR02]ISP人數 | 每小時 | 條件同 AR01,針對 ISP 維度統計 | 檢查 ISP 使用人數是否異常流失 |
[AR03]響應時間 | 每 5 分鐘 | 若連續 3 次全站平均響應時間超過 800ms | 檢查是否有 API 邏輯錯誤或伺服器忙碌 |
[AR04]響應時間與次數 | 每 5 分鐘 | 若響應時間上升超過 200% 且同時請求次數下降超過 50% | 檢查是否有伺服器過載或排程錯誤 |
[AR05]Domain 與 ISP 錯誤率 | 每 5 分鐘 | 適用於高峰時段: 當網域總使用者 >200 且過去 12 小時故障率 >2% 🔸 觸發 1:連線下降 50%,錯誤率提升 200% 🔸 觸發 2:使用者 >800 且連線下降 25%、錯誤率提升 50% | 檢查 Domain 是否遭 ISP 阻擋或品質劣化 |
📎 名詞解釋
- 使用人數:指活躍且持續連線的 IP 數量
- 響應時間:API 或網頁在指定區間內的平均延遲(以 ms 為單位)
- 請求次數:單位時間內的 API 呼叫總量
- 故障率:Fail 數 /(Fail + Success)總查詢次數 × 100%