Better Stack & eBPF: データドッグを凌駕する可観測性の転換

要約 / ポイント

Datadogよりも80倍効率的だと謳う新しい可観測性モデルが登場しました。eBPFとAIを搭載したこのスタックは、ゼロコードセットアップと大幅なコスト削減を約束します。

あなたの可観測性コストは嘘である

現代のアプリケーション開発は、静かで陰湿な負担、すなわち可観測性のコストの急騰に直面しています。Datadogのような既存ベンダーは包括的な可視性を約束しますが、多くの場合、財務チームを不意打ちするような予測不能で高騰する請求をもたらします。ホスト、データポイント、取り込まれたログ、およびさまざまな機能モジュールに基づいた彼らの多次元的な価格設定は、真に習得できる者が少ない迷宮のような構造を作り出し、多くの企業にとって正確な予算予測を絶え間ない苦闘にしています。

この不透明な課金モデルは、エンジニアリングチームに高額な可観測性税を課します。法外なコストに直面し、多くの組織は重要なデータをサンプリングしたり、サービスを選択的に監視したり、貴重なテレメトリーストリームを意図的に破棄したりしています。これは可観測性の本来の目標を損ない、パフォーマンスの問題、セキュリティの脆弱性、または完全な停止が未検出のまま悪化する危険な盲点を残し、ユーザーエクスペリエンスと収益に直接影響を与えます。

開発者はまた、手動インストルメンテーションという骨の折れる作業にも取り組んでいます。深い可視性を得るには、多くの場合、特定のSDK、フレームワークを組み込み、分散アプリケーション全体に無数のコード行を追加する必要があります。このプロセスは貴重なエンジニアリング時間を消費し、コア機能開発から監視の退屈な配管作業へと焦点を逸らし、絶えずイノベーションを遅らせ、重要なアップデートの市場投入までの時間を増加させます。

テレメトリー収集と課金に対するこのような旧態依然としたアプローチは限界に達しています。高価でコード量の多いインストルメンテーションや、成長を罰する不透明な使用量ベースの価格モデルといった現在のパラダイムを超え、根本的な転換が緊急に必要です。新しい技術の波は、組織が重要な運用データを収集、分析し、最終的に支払う方法を再定義し、著しく優れた価格性能比と予測可能なコストで前例のない洞察を提供することを約束します。

eBPF：カーネルのスーパーパワーが解き放たれる

革新的なLinux kernelテクノロジーであるeBPF (extended Berkeley Packet Filter) は、サンドボックス化されたプログラムをオペレーティングシステムカーネル内で直接実行することを可能にします。この強力な機能により、開発者はカーネルソースコードを変更したり、カーネルモジュールをロードしたりすることなく、カーネル機能を安全かつ効率的に拡張できます。これは、システムイベントを監視し、操作するための高性能で安全な方法を提供し、カーネルをプログラム可能な環境に効果的に変えます。

可観測性にとって、eBPFは根本的なゲームチェンジャーです。アプリケーションロジックを変更することなく、システムコール、ネットワークトラフィック、プロセス実行、ファイルシステム操作を直接キャプチャし、ソースでのきめ細かなデータへの前例のないアクセスを提供します。システムレベルの動作へのこの深い可視性は、アプリケーションコードを変更する必要性を排除し、ゼロコードインストルメンテーションで分散アプリケーションへの包括的な洞察を提供します。チームは、最下層のカーネルレイヤーから上まで、インフラストラクチャとアプリケーションの全体像を把握できます。

従来のApplication Performance Monitoring (APM) エージェントは、根本的に異なる方法で動作します。これらは通常、開発者が言語固有のライブラリやSDKをアプリケーションコードに直接組み込むことを要求します。この侵襲的なアプローチは、かなりのオーバーヘッドを発生させ、アプリケーションの再起動を必要とし、多様なプログラミング言語やフレームワーク間で互換性の課題を生み出します。このようなエージェントは、重要なシステムレベルのイベントを見逃したり、粗い粒度のサンプリングに依存したりすることが多く、システムの状態とパフォーマンスについて不完全で誤解を招く可能性のある情報しか提供しません。

eBPFはこれらの従来の制限を回避し、カーネルの視点から直接テレメトリーを収集するための普遍的で低オーバーヘッドな方法を提供します。この根本的な変化は、データ収集における「新しいデフォルト」としてeBPFを推進するBetter Stackのようなプラットフォームのビジョンを支えています。Better Stackは、eBPFをOpenTelemetryと組み合わせて活用することで、コード変更なしにすべての分散アプリケーションを計測することを目指しており、比類のない価格性能比を約束し、Datadogのような既存の企業が設定した現状に挑戦しています。このパラダイムは、Better Stackによると、最大80倍もの膨大なデータを、わずかなコストで提供することを約束し、最新のスタック全体で高度で予測可能な可観測性を利用可能にします。

OpenTelemetry: ユニバーサルな翻訳者

OpenTelemetry (OTel) は、広範なベンダーロックインに直接対抗する、テレメトリーデータのための業界の重要なオープンスタンダードとして登場しました。トレース、メトリクス、ログの収集、処理、エクスポートのためのこの普遍的な仕様は、組織を独自のエージェントやフォーマットから解放します。これにより、比類のない柔軟性が確保され、エンジニアリングチームは高コストな再計測やアプリケーションコードの変更なしに、可観測性バックエンドを切り替えたり、新しいツールを統合したりすることができます。

ここでeBPFとOpenTelemetryは、システムインサイトのための究極のユニバーサルな翻訳者として、止められないデュオを形成します。eBPFがLinux kernelから直接、生で深いシステムデータを収集するゼロコード計測のための強力なメカニズムを提供する一方で、OpenTelemetryはその出力を標準化します。これにより、ネットワーク接続、ファイルI/O、システムコールなどの低レベルのカーネルイベントが、普遍的に理解される構造化されたトレース、メトリクス、ログに変換され、あらゆるOTel互換プラットフォームで利用可能になります。

これらのテクノロジーを組み合わせることで、革新的な将来性のある可観測性戦略が実現します。この「ゼロコード」アプローチは、多様な言語、フレームワーク、環境にわたる分散アプリケーションを自動的に計測し、手動でのコード変更やSDK統合の必要性を排除します。これにより、システム動作、ネットワークトラフィック、システムコールに関する前例のない包括的な可視性が得られます。これらは、従来のアプリケーションレベルの計測では見逃されがちであったり、捕捉が困難であったりする重要な詳細です。これにより、スタック全体で一貫した高忠実度のデータ収集が保証されます。

業界は、次世代の可観測性のための基盤技術としてOpenTelemetry eBPF Instrumentation (OBI) を急速に採用しています。この急速な採用は、複雑なクラウドネイティブアーキテクチャ全体にわたる普及した、手間のかからないモニタリングへの明確なロードマップを浮き彫りにし、自動サービスマップと詳細なパフォーマンスインサイトを提供します。Better StackのようなプラットフォームはOBIを大いに活用し、優れた価格性能比と包括的な可観測性を提供するその能力を実証しています。このような強力なツールの使用開始に関する詳細については、Getting started | Better Stack Documentationのようなリソースを参照してください。OBIは、深い可視性がエンジニアリングの雑務ではなく、デフォルトとなる未来を約束します。

Better Stackのご紹介：この変化のために構築されたプラットフォーム

Better Stackは、オブザーバビリティにおけるこの抜本的な変化を商業化し、チームがシステムを監視する方法を再評価することで、一歩前進します。同社は、コード変更なしにすべての分散アプリケーションを計測するように設計された、単一の統合プラットフォームを提供し、比類のない価格性能比を実現します。これは、従来のオブザーバビリティソリューションを悩ませる高騰するコストと予測不可能な請求に直接対抗するものであり、現代のクラウドネイティブスタックにとって明確な代替手段となります。

そのアーキテクチャの中核において、Better StackはeBPFとOpenTelemetryを活用して、分散システム全体でゼロコード計測を実現します。この基本的なアプローチにより、システムレベルの動作に対する比類のない深い可視性が可能になり、従来のアプリケーションレベルの手法では見逃されがちなネットワークトラフィック、システムコール、プロセス間の相互作用を捕捉します。このプラットフォームは、包括的なサービスマップを自動的に生成し、Linuxカーネルから直接、詳細なトレース、ログ、メトリクスを収集し、完全なコンテキストを保証します。

80倍のパフォーマンス主張：事実かフィクションか？

CodeREDにおけるBetter Stackの売り込みは、大胆な主張をしています。「Datadogの80倍のデータを同じ予算で処理する」というものです。これは単なる漸進的な改善ではなく、オブザーバビリティの経済性の根本的な再構築を示唆しています。この主張は、根底にある価格設定哲学と計測方法論の顕著な対比に基づいています。

Datadogは、悪名高いほど複雑な多次元の価格設定構造を採用しています。ホストごと、コンテナごと、関数ごとに課金し、さらにAPM、ログ管理、リアルユーザーモニタリング（RUM）、セキュリティモニタリングなどの各機能モジュールに別途料金を追加します。対照的に、Better Stackは予測可能なボリュームベースのモデルを提供しており、主にデータ取り込みおよび保存されたGBごとに課金し、インシデント管理のためのレスポンダーごとの料金も設定しています。

Datadogのホストごと、機能ごとの価格設定は、特に動的なクラウド環境において、驚くべきコスト上昇につながる可能性があります。オートスケーリングするKubernetesクラスターを考えてみてください。需要に応じてポッドが起動したり停止したりするたびに、新しいホストやコンテナインスタンスごとにしばしば追加料金が発生します。これらの短命なリソースで深いAPMトレースを有効にしたり、大量のログを取り込んだりすると、コストがさらに増大し、弾力的なアーキテクチャが予測不可能な財政的負担に変わってしまいます。

ここで、eBPF計測がその固有のコスト優位性をもたらします。努力を重複させたり、異なるデータタイプのために複数の専門エージェントを必要とする可能性のある従来のホストベースのエージェントとは異なり、eBPFはLinuxカーネル内で直接動作します。単一の軽量メカニズムからネットワークトラフィック、システムコール、アプリケーションの動作に対する深く詳細な可視性を提供し、リソースオーバーヘッドを最小限に抑えます。この効率性により、監視対象システムへの影響を大幅に減らし、データ処理コストを低く抑えながら、より包括的なデータを収集できます。これにより、データ収集をソースで最適化することで、コストカーブを根本的に変化させます。

価格だけではない：機能の対決

驚くべきコスト比較を超えて、Better StackとDatadogの間の本当の戦いは、オブザーバビリティに対する彼らの根本的なアプローチにあります。Datadogは、750以上の統合と、あらゆる考えられるドメインにわたる深く成熟した機能セットを備えた、網羅的な「何でもあり」のプラットフォームを提供することで、その帝国を築き上げました。

Datadogは、以下のための専門モジュールを提供しています。 - アプリケーションパフォーマンスモニタリング（APM） - インフラストラクチャおよびネットワークモニタリング - ログ管理 - セキュリティモニタリング - シンセティックモニタリング - インシデント管理

各モジュールは比類のない深さを提供し、組織が高度にカスタマイズされた、しかし複雑でしばしば高価なオブザーバビリティスタックを構築することを可能にします。

対照的に、Better Stackは、独自の意見を持ち、緊密に統合された戦略を採用しています。その強みは、アラートから解決までのワークフロー全体を、一貫性のある単一のUI内で簡素化する統合スイートにあります。このプラットフォームは、ゼロコードの計測にはeBPF、標準化されたデータ収集にはOpenTelemetryといった最新技術を活用し、可視性へのより合理化されたパスを提供します。基盤となるテクノロジーの詳細については、eBPF - Introduction, Tutorials & Community Resourcesをご覧ください。

Better Stackは、アップタイム監視、ログ管理、トレース、インフラ監視、エラー追跡、インシデント管理、ステータスページを単一の画面に統合します。この統合は、AI SRE co-pilotにも及び、これはエージェント的な根本原因分析を実行し、多様なデータポイントを相関させて解決手順を提案し、さらには事後分析を自動的に作成します。

トレードオフは明確です。Datadogは、モジュール式の複雑さと関連コストを管理する意思のあるユーザーに対し、信じられないほどの深さとカスタマイズ性を提供します。Better Stackは、個々のモジュールの専門性よりも、より迅速なインシデント解決のための統一されたワークフローを優先し、一貫性があり、簡素化され、コスト効率の高い体験を提供します。

あなたの新しいコパイロット：AI SRE

Better Stackの最も魅力的なイノベーションは、サイト信頼性エンジニアのリアルタイムでのインシデント解決を支援するために設計された洗練されたコパイロット、AI SREとして現れます。この主要機能は、従来の監視をはるかに超える大きな飛躍を意味し、生のテレメトリーを実行可能なインテリジェンスに変換し、平均解決時間の大幅な短縮を目指します。

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

このAI SREは、包括的なオブザーバビリティデータを自律的に相関させることで、高度なエージェント的な根本原因分析を実行します。最近のコードデプロイ、発生するエラー、パフォーマンスに影響を与えるトレースの遅延、主要メトリックトレンドの変化、詳細なログエントリなど、異なるデータストリームを体系的に調査します。この相互相関により、AIは停止や劣化につながる正確な一連のイベントを特定できます。

潜在的な問題を特定すると、AI SREは詳細な根本原因分析ドキュメントを作成し、エンジニアに即座に全体的な理解を提供します。これらの出力には、明確な証拠タイムライン、関連ログからの直接引用、具体的で実行可能な解決手順が含まれます。診断を超えて、AIは適切なLinearチケットを提案し、初期の事後分析を自動的に作成することもでき、インシデントワークフロー全体を合理化します。

決定的に重要なのは、Better Stackが堅牢なhuman-in-the-loop手法でAI SREを設計している点です。AIはインシデントの原因に関する仮説をインテリジェントに策定し、特定の緩和策や解決策を提案しますが、自律的に行動することはありません。エンジニアは最終的な制御を保持し、提案された変更や自動化された介入には明示的な承認が必要です。この設計により、重要な人間の監視と判断が最優先され、AIによる速度と不可欠な信頼性が融合されます。

このAI SREの有効性は、Better Stackの基盤となるデータ取り込み機能を直接活用しています。同等のコストで「Datadogの80倍ものデータ」を処理することで、このプラットフォームはAIに比類のない量と広範な情報を提供します。この広範なデータセットは、迅速なクエリと組み合わされることで、AIがより迅速で正確な洞察を生成し、受動的な火消しから、より積極的で情報に基づいた問題解決へと移行することを可能にします。これにより、すべてのエンジニアが、複雑な分散システムをナビゲートできるインテリジェントなアシスタントを備えた、拡張されたSREへと効果的に変革されます。

AIがいかにしてオンコール地獄を最終的に解決するか

AI SREはインシデント対応を劇的に変革し、エンジニアリングチームにとって不可欠なコパイロットとして機能します。このエージェントAIは、高度な根本原因分析を実行し、リアルタイムで重要なデータポイントを自律的に関連付けます。最近のデプロイ、エラーの急増、トレースの遅延、メトリックトレンドの変化、関連ログなど、eBPFとOpenTelemetryを介して効率的に収集されたすべてをシームレスに接続します。このプロアクティブでインテリジェントな相関により、即座にコンテキストが提供され、エンジニアリングチームはリアクティブなアラート管理からプロアクティブな問題特定へと移行します。

この深い診断機能は、平均解決時間（MTTR）を劇的に短縮します。かつてオンコールエンジニアが何時間もかけて骨の折れるデータ選別を行っていた作業が、わずか数分に凝縮されます。AI SREは、膨大なデータセット全体から異常を迅速に特定し、明確で証拠に基づいたタイムラインを提示し、正確な解決手順を提案します。エンジニアはAIの仮説を検証し、骨の折れる探偵作業から迅速で情報に基づいた行動へと焦点を移し、復旧時間を大幅に加速させます。

さらに、AIは膨大な認知的負荷と燃え尽き症候群を軽減することで、オンコール地獄に直接対処します。重大なインシデント発生時の主要なストレス源である、退屈で反復的なデータ相関は完全に自動化されます。エンジニアは、ばらばらのアラートやメトリックの洪水に溺れることはなくなり、AIが情報を事前に消化・統合し、特定のインシデントに合わせた実用的な洞察を提示します。これにより、人間の専門家は、単なる火消しではなく、複雑な問題解決と戦略的改善に集中できるようになります。

このシステムは、初期解決をはるかに超えてその有用性を拡張し、インシデント管理の未来を形作ります。Better StackのAI SREは、包括的な事後検証の作成を自動化し、インシデントのタイムライン、影響、解決手順を綿密に文書化します。エンジニアリングチームが根本的な問題に対処するための特定のLinearチケットの生成など、フォローアップアクションを積極的に提案します。この継続的な学習ループは、解決されたすべてのインシデントがAIの理解を深め、将来のイベントに対する診断精度と予測能力を常に洗練させ、自己改善型の運用ブレインとしての役割を確固たるものにします。

オブザーバビリティのアンバンドリングは終わったのか？

長年、エンジニアリングチームはオブザーバビリティを達成するために、ばらばらのツールを苦労してつなぎ合わせてきました。メトリックにはPrometheus、可視化にはGrafana、ログ管理にはELK Stack（Elasticsearch、Logstash、Kibana）といったオープンソースの強力なツールを組み合わせていました。このDIYアプローチは柔軟性を提供しましたが、特にシステムがスケールするにつれて、かなりの運用オーバーヘッドと統合の課題をもたらしました。

しかし、現代の分散システム、マイクロサービスアーキテクチャ、クラウドネイティブデプロイメントの複雑さの増大は、この断片化された戦略の限界を露呈しました。膨大なデータ量と速度、そして複雑な相互依存性が相まって、より一貫性のあるビューが求められました。これにより、メトリック、ログ、トレースをシームレスに相関させることができる統合プラットフォームへの需要が再燃しました。

現在、これらの現代的な課題に対処するためにゼロから構築された、新しい波の統合プラットフォームが登場しています。Better Stackはその最前線に立ち、ゼロコードインスツルメンテーションにeBPFを、標準化されたデータ収集にOpenTelemetryを活用しています。AI SREコパイロットを搭載したその統合スイートは、データ集約だけでなく、インテリジェントで自動化されたインシデント解決を提供することで、フルスタックオブザーバビリティを再定義します。

この変化は、業界を、モニタリング、ロギング、トレーシング、インシデント管理を単一のインターフェースに統合するAIネイティブソリューションへと推進しています。Better Stackのアプローチは、予測分析とプロアクティブな修復を重視し、リアクティブなアラートを超越します。これは、AIがサイト信頼性エンジニアリングに伝統的に関連する多くの骨の折れる作業を処理する未来を約束します。

確立されたプレイヤーは、この進化する状況を認識しています。New Relicは「all-in-one」プラットフォームの改良を続けており、Grafana LabsはGrafana Cloudを拡張して、マネージドOpenTelemetryやログ用のLokiを含む、より統合されたサービスを提供しています。多くの企業は現在、ベンダーロックインを防ぎ、データポータビリティを確保するために、OpenTelemetryのようなオープンスタンダードを採用しています。断片化されたオブザーバビリティツールの時代は、インテリジェントで統合されたソリューションに道を譲りつつあります。

切り替えるべきか？リトマス試験

今日のオブザーバビリティスタックを評価するには、コスト、複雑さ、将来への準備状況を率直に評価する必要があります。eBPFとOpenTelemetryの台頭は、分散システムのモニタリングの経済性と能力を根本的に変え、最小限のオーバーヘッドで前例のない可視性を提供します。プラットフォームを切り替えるかどうかの決定は、これらの新しい技術的現実を運用上の優先事項と戦略的目標に合わせるかどうかにかかっています。

Better Stackは、いくつかの主要なプロファイルにとって魅力的な代替案を提示します。エンジニアリングチームが主にKubernetesのような最新のクラウドネイティブアーキテクチャで運用している場合、そのeBPF駆動のゼロコードインストゥルメンテーションは即座に利点を提供します。オブザーバビリティコストの高騰に特に敏感なスタートアップやスケールアップ企業は、予測可能でボリュームベースの価格設定を魅力的に感じるでしょう。特に「Datadogと同じ費用で80倍のデータを処理する」という主張があるためです。ロギング、メトリクス、トレース、AI駆動のインシデント対応を単一のインターフェースに統合する真に統一されたプラットフォームを求めるチームも理想的な適合性を示し、運用を合理化し、ツールの乱立を減らします。

対照的に、Datadogは、移行のオーバーヘッドが切り替えのメリットを上回る特定の組織にとって、依然として強力な足場を維持しています。複雑なモノリシックなレガシーインフラストラクチャや、数百のアプリケーションにわたる高度に専門化されたニッチな統合に深く投資している大企業は、短期的には移行作業が法外なものだと感じるかもしれません。さらに、非常に厳格でオーダーメイドのセキュリティ要件、深く組み込まれたコンプライアンスワークフローを持つ組織、またはDatadogの広範なサードパーティアドオンのマーケットプレイスやレガシーエージェントの展開に大きく依存している組織は、潜在的に破壊的な移行よりも安定性を優先し、現在の設定を維持することを好むかもしれません。

最終的に、オブザーバビリティの状況は、eBPFとAIという二つの力によって、根本的な再定義が進んでいます。この技術的変化を無視することは、ますます高価で非効率な未来を保証し、チームを予測不能な請求とリアクティブな問題解決のサイクルに閉じ込めます。組織が今日切り替えるか明日切り替えるかにかかわらず、この進化を理解することは、過去のソリューションに過剰な費用を支払うことを避け、よりプロアクティブで費用対効果の高い運用パラダイムを解き放つために不可欠です。モニタリングの未来はすでにここにあります。それに適応することはもはや選択肢ではありません。

よくある質問

Better Stackの主な売りは何ですか？

Better Stackの売りは、eBPFとOpenTelemetryを使用してゼロコード変更で分散アプリケーションを計測し、Datadogのような競合他社と比較してはるかに優れた価格性能比を提供し、ライブの問題をより迅速に修正するためのAI SREコパイロットを提供することです。

eBPFはどのようにゼロコードインストゥルメンテーションを可能にしますか？

eBPFは、Linuxカーネル内でサンドボックス環境でプログラムを実行できるようにします。これにより、Better Stackのようなツールは、アプリケーションのソースコードを変更することなく、カーネルから直接、詳細な可観測性データ（トレース、ログ、メトリクス）を収集できます。

Better StackはDatadogよりかなり安いですか？

はい、Better Stackははるかに費用対効果の高いソリューションとして位置付けられています。彼らは、主にボリュームベースの料金設定と、高価なホストベースの課金を回避するeBPFインスツルメンテーションにより、同じ価格で最大80倍のデータを処理できる、または最大98%の節約を提供すると主張しています。

AI SREとは何ですか？

Better Stackによって実装されたAI SREは、サイト信頼性エンジニアのためのAIコパイロットです。テレメトリーデータを自動的に分析し、根本原因分析を実行し、解決手順を提案し、インシデントドキュメントを生成し、さらにはポストモーテムを作成することで、インシデント対応を加速します。

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.