透過 AI 輔助監控及排解問題

本文說明如何使用 AI 輔助功能監控及排解 Spanner 資源問題。您可以運用 Spanner 和 Gemini Cloud Assist 的 AI 輔助疑難排解工具,解決資料庫負載過高的問題

事前準備

為使用者帳戶和專案設定 Gemini Cloud Assist。Google Cloud

設定 Gemini Cloud Assist 後,服務最多需要五分鐘才能完成傳播。請等待傳播作業完成,再啟用 Spanner 的 AI 輔助疑難排解功能。

必要的角色

如要取得使用 AI 輔助疑難排解功能所需的權限,請要求系統管理員在 Spanner 資料庫中授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

開啟 Gemini Cloud Assist

  1. 前往 Google Cloud 控制台的「Spanner Instances」(Spanner 執行個體) 頁面。

    前往 Spanner 執行個體

  2. 如要開啟執行個體的「總覽」頁面,請按一下執行個體名稱。

  3. 如要開啟 Gemini,請點選「spark」開啟或關閉 Gemini Cloud Assist 對話

  4. 在 Gemini Cloud Assist 窗格中,輸入描述您感興趣資訊的提示。

  5. 輸入提示後,按一下「傳送提示」圖示 。Gemini 會根據過去一小時的資訊,回覆您的提示。

排解資料庫負載過高的問題

在 Google Cloud 控制台中存取「查詢洞察」資訊主頁或「系統洞察」資訊主頁,即可分析資料庫並排解事件問題,瞭解系統資料庫負載高於平均值的原因。Spanner 會使用所選時間範圍前 24 小時的資料,計算資料庫的預期負載。您會深入瞭解負載事件增加的原因,並分析成效降低的證據。Spanner 也會提供資料庫最佳化建議,協助您提升效能。

如要使用 AI 輔助功能解決資料庫負載過高的問題,請前往 Google Cloud 控制台的「系統深入分析」或「查詢洞察」資訊主頁。

查詢洞察資訊主頁

在「查詢洞察」資訊主頁中,按照下列步驟使用 AI 輔助功能,排解資料庫負載過高的問題:

  1. 前往 Google Cloud 控制台的「Spanner instances」(Spanner 執行個體) 頁面。

    前往 Spanner 執行個體

  2. 如要開啟執行個體的「總覽」頁面,請按一下執行個體名稱。

  3. 選用:在「資料庫」清單中,按一下資料庫。

  4. 在導覽選單中,按一下「查詢洞察」

  5. 選用:使用「時間範圍」篩選器,選取 1 小時、6 小時、1 天、7 天、30 天或自訂範圍。

    放大圖表的特定部分,找出要分析的高負載區域。舉例來說,高負載區域可能會顯示接近 100% 的 CPU 使用率。如要放大,請點選並選取圖表的一部分。

  6. 在「總 CPU 使用率 (所有查詢)」圖表中,按一下「調查效能」按鈕,即可透過 Gemini Cloud Assist 的 AI 輔助功能,開始排解延遲問題。

    大約兩分鐘後,系統會開啟「調查詳細資料」窗格,並顯示下列部分:

    • 問題。調查問題的說明,包括調查的開始和停止時間。
    • 觀察結果。問題的觀察結果清單。舉例來說,這些詳細資料可能包括鎖定爭用詳細資料,例如查詢的鎖定等待比率高於預期。
    • 假設。AI 建議採取的行動清單,可協助解決查詢執行緩慢的問題。

系統洞察資訊主頁

如要運用 系統洞察資訊主頁中的 AI 輔助功能,排解資料庫負載過高的問題,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Spanner instances」(Spanner 執行個體) 頁面。

    前往 Spanner 執行個體

  2. 如要開啟執行個體的「總覽」頁面,請按一下執行個體名稱。

  3. (選用) 在「資料庫」下方,按一下資料庫。

  4. 在導覽選單中,按一下「系統洞察」

  5. 選用:使用「時間範圍」篩選器,選取 1 小時、6 小時、1 天、7 天、30 天或自訂範圍。

    放大圖表的特定部分,找出要分析的高負載區域。舉例來說,高負載區域可能會顯示接近 100% 的 CPU 使用率。如要放大,請點選並選取圖表的一部分。

    按一下「Explore Investigations」按鈕,透過 Gemini Cloud Assist 的 AI 輔助功能,開始排解資料庫負載問題。

    大約兩分鐘後,系統會開啟「調查詳細資料」窗格,並顯示下列部分:

    • 問題。調查問題的說明,包括調查的開始和停止時間。
    • 觀察結果。問題的觀察結果清單。舉例來說,這些詳細資料可能包括鎖定爭用詳細資料,例如查詢的鎖定等待比率高於預期。
    • 假設。AI 建議採取的行動清單,可協助解決查詢執行緩慢的問題。

分析資料庫負載過高的情況

您可以運用 AI 輔助功能,分析及排解資料庫負載的詳細資料。

資料分析時間範圍

Spanner 會分析您在「查詢洞察」或「系統洞察」資訊主頁的資料庫負載圖表中選取的時間範圍。如果選取的時間範圍少於 24 小時,Spanner 會分析整個時間範圍。如果選取的時間範圍超過 24 小時,Spanner 只會選取時間範圍的最後 24 小時進行分析。

為計算資料庫的基準效能分析,Spanner 會在分析時間範圍內納入 24 小時的基準時間範圍。如果所選時間範圍不是從星期一開始,Spanner 會使用所選時間範圍前 24 小時做為基準時間範圍。如果所選時間範圍是週一,Spanner 會使用前 7 天做為基準時間範圍。

指標分析

Spanner 開始分析時,會檢查各種指標的重大變化,包括但不限於下列項目:

  • CPU 使用率
  • 讀取和寫入延遲時間 (第 50 和 99 百分位數)
  • 每秒讀取和寫入查詢次數 (QPS)
  • 節點數
  • 工作階段指標
  • 鎖定等待時間
  • 交易取消次數
  • 查詢統計資料
  • 交易統計資料
  • 鎖定統計資料
  • 收益分成統計資料

Spanner 會比較資料庫的基準匯總資料,以及分析時間範圍內的成效資料。如果 Spanner 偵測到重要指標的門檻出現重大變化,Spanner 就會指出資料庫可能發生問題。所識別的情況可能說明資料庫在所選時間範圍內負載過高的原因。

建議

Gemini Cloud Assist 完成分析後,「調查詳細資料」窗格的「假設」部分會列出可執行的洞察資料,協助修正問題。

在某些情況下,根據分析結果,可能不會有任何建議。

後續步驟