Sysdig Advisor：Kubernetesのトラブルシューティングを楽にするために

本文の内容は、2022年5月16日にHarry Perksが投稿したブログSysdig Advisor: Making Kubernetes troubleshooting effortless(https://sysdig.com/blog/kubernetes-troubleshooting-advisor/）を元に日本語に翻訳・再構成した内容となっております。

クラウド、Kubernetes、CI/CD、DevOps、GitOps…この5年間で、組織がアプリケーションをどのようにアーキテクトし提供しているかに大きな変革が起こりました。このペースについて行き、この新しい技術をすべて学ぶのは大変なことです。

Canonicalの2021年Kubernetesとクラウドネイティブオペレーションレポートの回答者の55%近くが、十分な社内スキルと人材の不足が、Kubernetesが企業にもたらす最大の課題であることを強調しています。はっきり言っておきますが、クラウドネイティブへの移行は、うまく実行されれば、企業はその成果を享受できますが、人的要因は見落とされがちです。

Kubernetesの運用を実際に考えてみると、プラットフォームチームはアプリケーション開発者にアプリケーションをデプロイするための環境を提供します。これらの様々なチーム内のスキル不足は、物事がうまくいかないときにSLAの違反として現れ、それはコストになります。組織では、4または5 Nineが満たされない場合、サービスのクレジットや返金を行うことがよくあります。自動化も有効ですが、問題が発生した場合、どこで何を探すかを理解することも、問題を解決する方法と同様に重要です。

トラブルシューティングを最大10倍高速化

Sysdig Monitorの新しいKubernetesトラブルシューティング製品であるAdvisorを発表することができ、トラブルシューティングを最大10倍まで加速することができます。Advisorは、問題の優先順位付けされたリストと関連するトラブルシューティングデータを表示し、最大の問題領域を浮上させ、解決までの時間を加速させます。

Sysdig Monitor Advisor – キュレーションされた問題の優先順位付け
CrashloopbackOff、Pending Pods、CPU Throttling、Node Pressureなどの問題にハイライトを当てます。
問題の優先順位をキュレーションすることで、より早く注意を喚起し、炎上している問題やすぐに対処が必要な問題を特定することができます。

Kubernetesのトラブルシューティングには、単なるメトリクス以上のものが必要です。例えば、CrashLoopBackoffをデバッグするとき、コンテナの最後の状態は何でしょうか？イベントは何なのか？コンテナログには何が書かれているのか？問題が特定されると、Advisor は、ログ、ダッシュボード、コマンドラインまたは kubectl などのトラブルシューティング・データに依存したりコンテキストを切り替えたりすることを排除し、問題解決に必要なすべての情報を提供します。

これらの情報はすべてアクション可能なものとなっています。シンプルなユーザーインターフェースは、Kubernetesの破損を修復するための精選されたアクション可能な一連のステップを備えた単一の統一ツールで、すべての重要な詳細を表面化させます。Wiki、Stack Overflow、ブログなどのナレッジコンテンツを探し回る必要はありません。

Sysdig Monitor Advisor – 15秒でポッドがCrashLoopBackOffになった理由を特定し、理解することができます。

「Kubernetes環境で問題のアラートが出た場合、トラブルシューティングには複数のツールやチームが関与するため、MTTRが長くなってしまいます。Sysdig Monitor Advisorでこの情報をすぐに入手できるようにすれば、これらの問題をより迅速に理解し解決することができます。”

エクスペリアン・ヘルス社 DevOps エンジニア Jeff Henson 氏

エージェントをインストールするとすぐに、Advisor は数千の異なるデータポイントに目を通し、設定を一切必要とせず、自動的に問題を特定します。

あらゆるタイプの問題のトラブルシューティングのための豊富なデータ

しかし、もちろん物事は数多くの異なる理由でうまくいかないことがあります。Advisorは、あらゆる種類の問題に対応する強力なトラブルシューティングツールです。クラスター、アプリケーション、ワークロード、ポッドごとに論理的にグループ化されたインフラストラクチャーをブラウズして、1万フィート視点で何が起きているかを理解し、環境内のあらゆるポッドのシステムコールから得られる深いネットワーク、ファイル、およびプロセスのメトリクスまで把握することが可能です。また、正しいデータを見るのは簡単です。オープンアラートインシデント、コンテナログ、オブジェクトの記述（例：kubectl describe pod）、Kubernetesやコンテナからのイベントフィード、kubeステートメトリクスで状況を文脈化できます。

Sysdig Advisorが作業を行うため、通常はkubectlにアクセスできない開発者や他のチームメンバーも、これらすべての情報を活用できます。Kubernetesアプリケーションの問題をトラブルシューティングする際に、例外を設けるようセキュリティチームを説得する必要はもうないのです。

ゼロアプリインスツルメンテーションのゴールデンシグナル、ネットワーク、ファイル、プロセステレメトリー

また、プラットフォーム・チームにとって、Advisorはクラスターが正しいサイズであることを確認するのに役立ちます。新しいワークロードに十分なキャパシティがあり、既存のワークロードがリソースを貪欲に使ってインフラの無駄（とお金！）を生んでいないことを確信することができます。

クラスターキャパシティの健全性を迅速に監視し、ワークロードのリソース状況を確認することができます。

Advisorは現在、すべてのお客様が追加費用なしで利用でき、今後数週間のうちにトラブルシューティングの機能が追加される予定です。私たちは、私たちの製品がどのようにお客様のオペレーショナル・エクセレンスに役立っているか、いつでもお聞かせいただけることを嬉しく思っています。Sysdigの担当者にご連絡いただくか、アプリ内のチャットでお問い合わせください。トラブルシューティングをスピーディーに！