Gemini Code Assist を導入してその影響を測定するフレームワーク
Nathen Harvey
DORA Lead
S. Bogdan
Product Manager
※この投稿は米国時間 2025 年 3 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
ソフトウェア開発チームは、ますます速いペースで成果を上げなければならないという絶え間ないプレッシャーにさらされています。DORA の調査をスポンサーとして支援している Google は、最近、ソフトウェア開発ライフサイクルにおける AI の導入と影響に注目しました。調査によると、開発者の 75% 以上が日常業務で AI を利用しています。
Gemini Code Assist を使用することで、開発者は効率性とコードの品質を向上させることができます。では、AI を活用したコーディングを効果的に導入するには、どのようなプロセスを踏めばよいのでしょうか。また、こうしたツールがチームのパフォーマンスに与える影響をどのように測定すればよいでしょうか。
この記事では、AI を活用したコード作成を導入し、ソフトウェア開発ワークフローにおける AI アシスタントの有効性を評価するための、実用的なフレームワークをご紹介します。
ここでは、Gemini Code Assist のような AI コード アシスタントをソフトウェア開発チームに導入するための、4 つのステップ(採用、信頼、加速、影響)からなるフレームワークについて説明します。
-
採用: 1 日のアクティブ使用数やコードの提案数などの指標をトラッキングして、開発者がツールを積極的に使用しているかを確認します。
-
信頼: コードの提案の受け入れ率と受け入れられたコード行数をモニタリングして、AI の出力に対する開発者の信頼度を測定します。
-
加速: DORA の指標、ストーリー ポイント、チケットの完了など、既存の生産性指標を通じて、開発速度とソフトウェア品質の改善状況をチェックします。
-
影響: 収益、マーケット シェア、製品化までの時間などの重要業績評価指標の推移を評価することで、こうした改善がビジネス目標全体に与えた影響を確認します。
AI アシスタントの導入プロセス
コード AI アシスタントの導入に取り組むうえでは、チェンジ マネジメントが必要となります。これはある状態(AI アシスタント導入前の開発)から別の状態(導入後の開発)への移行を主眼としたプロセスです。これには段階があり、時間が必要です。


AI を活用した生産性向上の 4 つのフェーズ
このプロセスは、4 つの段階に分けて理解できます。
-
採用: コードの AI アシスタントが、開発者の成果にどういった面で、どのように貢献できるかを把握するための評価と概念実証を行います。
-
信頼: AI アシスタントの出力に対する信頼を確立します。
-
加速: DORA の指標、ストーリー ポイント、チケットの完了など、既存の生産性指標を利用して、AI アシスタントによるチームの開発速度の改善状況を評価します。
-
影響: 収益、マーケット シェア、製品化までの時間など、ビジネスの重要業績評価指標の改善を確認します。
各フェーズで何をするのかに加えて、関係者の役割を理解することも重要です。通常、技術責任者や業務リーダーが評価を主導し(採用)、継続的な成果を確認します(影響)。個々の開発者は、この 2 つの活動の間で、コードの AI アシスタントについて学習してその機能を把握し、習慣的な使用を定着させます(信頼)。この期間中は、開発者が十分な時間を確保して学習し、さまざまな AI の活用方法を試すことができるようにすることが重要です。開発者チームは、協力して学習して AI への信頼を高めていく中で、フィードバックを繰り返してチームの生産性をさらに最適化します(加速)。


4 つのフェーズはスキップせず、順番に
組織がよく犯す間違いの一つは、コード AI アシスタントを使用すれば(採用)、すぐにビジネス成果が得られる(影響)と信じてしまうことです。別の言い方をすれば、信頼フェーズと加速フェーズをスキップして、採用フェーズからすぐに影響フェーズに移行できると考えているということです。
組織が AI アシスタンス ツールを十分に採用しておらず、その提案に信頼を寄せていない場合、チームの生産性が加速されることを期待するのは現実的ではなく、ましてやビジネスに実質的な影響を与えることは期待できません。


採用と信頼の成果が現れるまでは 6~8 週間
もう一つの誤解は、コード AI アシスタントを導入すれば一晩で効果が現れるというものです。組織によって異なりますが、組織の生産性に影響が現れる(加速)には、少なくとも 6~8 週間、つまり 2 週間のスプリントを 4 回行う必要があります。各フェーズの進行に伴って AI アシスタントの導入の効果が波及するには時間がかかります。この認識は、評価を実施する際に特に重要です。この点については、後ほどこの記事で詳しく説明します。


各フェーズで使用できる効果と指標
AI アシスタントの導入に向けた 4 つのフェーズは概念的なものですが、進捗状況と影響を明確にするための測定は可能であり、また推奨されます。以下では、使用される指標の種類や、使用する時期と理由について説明します。
-
採用: 日々のアクティビティ(開発者による AI アシスタントの使用)、コードの提案(AI によるコードの推奨)、チャットの利用(AI チャット リクエスト)の量は、開発者が AI アシスタントを活用しているかどうかを示す初期段階のシグナルです。このフェーズでは、これらの指標を使用して、開発者の毎日のエンゲージメントが着実に増加していることを確認します。採用が進むにつれて、信頼の確立に焦点を移すことができます。
-
信頼: 開発者が AI アシスタントを受け入れているかを確認します。コード提案の受け入れ数(AI の推奨コードの受け入れ数)、受け入れ率(コード提案の受け入れ数をコード提案の数で割った割合)、受け入れコード行数(提案を受け入れられたコードの行数)の指標を使用することで、信頼を評価できます。コード提案やコード行の受け入れ率が低い場合は、信頼が低い理由を調査する必要があります。開発者へのインタビューやアンケート(アンケート例)で、さらに理解を深めることもできます。
-
加速: 定評ある DORA ソフトウェア デリバリーの指標など、開発者の生産性(加速)の指標は、すでに組織で利用されているかもしれません。または、完了したストーリー ポイントや、期間ごとのチケットの完了など、他の指標で加速を評価することもできます。採用と信頼を確立したら、加速の指標の改善状況をモニタリングすることで、AI アシスタントによる生産性の向上を確認できるだけでなく、ビジネス成果と指標へのつながりが見えてきます。
-
影響: この最後のフェーズは、ビジネスの重要業績評価指標によって評価されます。具体的な影響の測定方法は組織によって異なり、組織のリーダーがモニタリングして AI アシスタントによるビジネス成果を評価する必要があります。影響の指標には、収益、マーケット シェア、製品改善までの時間の短縮、その他のビジネスの健全性に関する基準が含まれます。加速フェーズでの改善が観測された場合、影響の指標にもプラスの効果が期待できます。
重要な点として、AI アシスタントの指標(採用フェーズと信頼フェーズ)は、開発生産性の指標(加速フェーズ)とは異なることに注意してください。なぜそうなのかを理解するために、次のことを考えてみましょう。AI アシスタントのコード提案の受け入れ率が高かったり、AI が提案して受け入れられたコード行数が多かったりしても、それが DORA の指標や平均的なチケットの完了に悪影響を与えている場合、それでも開発生産性が向上しているといえるでしょうか?ほとんどの人がそうではないことに同意するでしょう。これが、区別することが重要である理由です。AI アシスタントの指標は AI アシスタントの採用と信頼の状況を測定しますが、開発生産性の指標はそれによって生じた効果を表します。そして、影響の指標が最終的な成果を明らかにします。
このようにプロセスの全体像、各フェーズ、対応する指標を定義することで、これらの要素すべてを指針となるフレームワークとして使用し、コード AI アシスタントの影響を促進、確認できます。
Gemini Code Assist による影響測定
Gemini Code Assist は、プレビュー版の Gemini for Cloud Logging のログ を通じて、採用および信頼フェーズの測定をサポートします。このログを使用することで、アクティブな使用、コード提案、コード提案の受け入れ、受け入れ率、チャットの利用、受け入れられたコード行数を可視化できます。さらに、ユーザーごと、プログラミング言語ごと、IDE クライアントごと、アクティビティ時間ごとの個別のアクティビティも確認できます。こうした緻密な分析情報は、AI アシスタンスの総計指標からは必ずしも得られないものです。これらの分析情報を使用することで、組織の取り組みのパフォーマンスを評価できるとともに、「先週、AI が支援したコード行数はプログラミング言語ごとにいくつだったか?開発者ごとでは?」といった具体的な質問にも答えられます。


Gemini Code Assist ログは、プログラミング言語、ユーザー、時間ごとのコードの提示と受け入れなど、個別のアクティビティ分析情報を提供
Gemini Code Assist ログがアクティビティごとの詳細情報を提供するのに加え、Google はログ分析に基づいて構築されたサンプル ダッシュボードも提供しています。これは、採用と信頼の指標の総合的なレビューを支援するためのものです。


Gemini Code Assist は、ログ分析を使用してダッシュボード サンプルを測定
上記に加えて、Gemini Code Assist を含む、プレビュー版 Gemini for Cloud 全体のアクティブな使用状況をモニタリングするために、Cloud Monitoring 指標が用意されています。


AI アシスタントによる効果を評価する 4 つのフェーズ
多くの組織は、コードの AI アシスタントの導入を本格的に始める前に、まず評価を実施することを選択します。AI アシスタントの導入の場合と同様に、評価についても段階的なプロセスが考えられます。ここでも、各フェーズは次のフェーズにつながり、それぞれに特定の担当者が関与します。
-
成功基準: 評価を開始する前に、成功基準を定義してベースラインを設定する必要があります。成功基準を定義する際には、開発チームとビジネス意思決定者という関係者を考慮する必要があり、また、両者が成功の定義について合意する必要があります。成功基準には、DORA、ストーリー ポイントのベロシティ、解決済みのチケットなど、加速フェーズの指標の改善を含めることができます。成功基準フェーズは見落とされがちですが、最も重要なフェーズです。評価開始前に成功基準を見落としていたり、基準について全員の合意を得られていなかったりすると、AI アシスタントの影響を遡って評価するのが困難になる可能性があるからです。
-
参加者: 検討すべきアプローチは複数ありますが、最も一般的なのは、開発者のチームを 1 つ選んで連続するプロジェクトで評価を行う(最初のプロジェクトでは AI アシスタントを使用、次のプロジェクでトは使用しない)か、2 つのチームのパフォーマンスを A/B コホートで比較する(一つのチームは AI アシスタントを使用し、もう一つのチームは使用しない)方法です。どちらの方法を選択する場合でも、誰が参加するのかとその理由を事前に話し合い、合意しておく必要があります。優先すべきは同一チームでの比較です。たとえば、はるかに経験豊富な A チームが AI アシスタントを使用し、経験の浅い B チームが使用しない A/B コホートでは、偏りが生まれて効果の評価が難しくなったり、場合によっては評価が信頼できないものになったりします。
-
測定: AI アシスタントの導入プロセスは、評価の進行とモニタリングにおける指針となります。成功基準とともに定量的指標と定性的指標を定期的に確認することで、AI アシスタントの効果を検証できるレベルにまで評価を進めることができます。
-
コミット: 成功基準について合意し、評価過程で成功に向けた進捗を測定し促すことによって、承認された成功基準が満たされたかどうかを踏まえて、コード AI アシスタント導入の取り組みを承認するか拒否するかを判断できます。


評価への投資のレベル
コード AI アシスタントの評価は、さまざまなレベルで行われます。最小限の評価では、関与する開発者は小数で、定性的調査と加速フェーズの指標のモニタリングのみが行われます。経験上、より一般的で、ほとんどの組織が選択しているアプローチは、定量的指標と定性的指標の両方を対象とする中程度の評価です。ここでは、1 つのチームが連続する開発をコード AI アシスタントありの場合となしの場合で行うか、または A/B コホートで 2 つのチームが AI アシスタントありの開発となしの開発を行います。最も完全かつ詳細な評価として、正式な調査やラボでの研究、分析を活用した評価が挙げられますが、実際にはこれに適した組織はほとんどありません。
どの評価レベルを選んだ場合でも、成功基準を事前に定義し、比較のためのベースライン データを収集することが重要であることを改めて強調しておきます。


加速の指標の改善が確認された時点で評価を完了する
取り組みの成功基準を定義する際には、AI アシスタントの影響を検証するのに必要十分なターゲットを設定することが重要です。多くの場合、加速フェーズの生産性指標の改善を見ることで、影響フェーズの指標の改善(ビジネスの重要業績評価指標)も見えてきます。逆に、結論を出すのに多大な時間や労力を要する成功基準を選択すると、AI アシスタントの効果を早期に確認する機会が減ってしまう可能性があります。
使ってみる
ソフトウェア開発における AI アシスタントの活用を始めませんか?Gemini Code Assist の詳細については、プロダクト ページ、ドキュメント、クイックスタートをご覧ください。
その他のリソース:
-
AI アシスタントの導入を決定する際には、2024 年 DORA レポートの AI アシスタントの影響に関する分析情報と Google Research の記事が参考になります。
-
DORA のソフトウェア デリバリーのパフォーマンス指標は、AI アシスタント導入プロセスの加速フェーズと影響フェーズで利用できる優れた指標です。これらの指標をまだトラッキングしていない場合は、DORA クイック チェックを使用して、現在のソフトウェア デリバリーのパフォーマンスを把握できます。
-
DORA の調査では、多くのプラクティスがソフトウェア デリバリー パフォーマンスの向上につながることも示されています。こうしたプラクティスあるいは取り組みの測定値は、導入プロセスの採用フェーズと信頼フェーズで役立つとともに、後半のフェーズの先行指標としても機能します。
-
アンケート(サンプル)は、AI の導入を定性的に評価するのに役立ち、コード アシスタントを使用して改善したい特定の分野(ソフトウェア デリバリー パフォーマンス、ドキュメントの品質、コードレビュー時間、フロー、ユーザー中心主義など)に絞った調査を行えます。
-Nathen Harvey 氏、DORA リーダー
-S. Bogdan、プロダクト マネージャー