コンテンツに移動
デベロッパー

Agent Factory のハイライト: Taylor Mullen が語る Gemini CLI の詳細

2025年10月8日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Hero_Image_AF_Ep7_Recap_Blog_2.max-2500x2500.png
Mollie Pettit

Developer Relations Engineer

※この投稿は米国時間 2025 年 9 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

Agent Factory ポッドキャストの最新エピソードでは、Amit Miraj と私が Gemini CLI を詳しく解説しました。また、Gemini CLI の生みの親である Taylor Mullen がゲストとして参加し、その誕生秘話、設計理念、今後のロードマップについて語りました。

Video Thumbnail

この投稿では、今回の対談からの重要なアイデアをいくつか紹介します。なお、この投稿は、トピックをすばやく振り返ったり、リンクやタイムスタンプを使用して特定のセグメントを詳しく調べたりできるような構成になっています。

Gemini CLI の紹介

Gemini CLI は、コマンドラインで直接使用できる、強力な会話型 AI エージェントであり、日常のワークフローに役立つ多機能なアシスタントとして設計されています。単純な chatbot とは異なり、Gemini CLI はエージェントです。つまり、ユーザーに情報を伝えながら、推論、ツールの選択、そして目標を達成するための複数の手順で構成される計画の実行が可能です。オープンソースかつ拡張可能であり、生みの親である Taylor Mullen が語ったように、開発者のワークフローを深く理解したうえで構築されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/GeminiCLI.max-1500x1500.png

The Factory Floor

「The Factory Floor」は、実践的なセグメントです。今週は、日常的な課題に対処するために設計された 2 つの実際のデモによって Gemini CLI をテストしました。

Gemini CLI で新しいコードベースを使うための準備

タイムスタンプ: [02:22]

私は、すべての開発者が直面したことがあると思われる問題に取り組むこと、つまり新しいコードベースに慣れることからデモを始めました。これには、Gemini CLI を使用して次のタスクを完了することが含まれていました。

  • GitHub にある Python ADK リポジトリのクローンをシンプルな自然言語のコマンドで作成する

  • プロジェクトの完全な概要を生成する

  • 生成された要約を、google-docs-mcp(Model Context Protocol)サーバーを利用して Google ドキュメントに直接保存する

  • プロジェクトの貢献履歴を分析して、貢献文化と貢献ワークフローを理解する

  • 新しい貢献者に最適な最初のタスクを見つける

MCP サーバーとその仕組みの詳細については、こちらをご覧ください。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Demo1-option1.max-1500x1500.png

Gemini CLI で研究を推進

タイムスタンプ: [11:38]

次のデモで、Amit は AI に関する新しい研究論文の相次ぐ発表に追いつくという、彼にとって身近な問題に取り組みました。Amit は、Gemini CLI を使用して、次のタスクを完了させる個人用のリサーチ アシスタントを構築する方法を紹介しました。

  • 研究論文のディレクトリを処理し、各論文の説明をウェブページでインタラクティブに生成する

  • シンプルなプロンプトを何度か処理させて、複数のパートで構成される詳細なプロンプトを作成し、より良い出力を生成できるようにする

  • 複雑なプロンプトを再利用可能なカスタム スラッシュ コマンドとして保存する

また、Amit は、Gemini CLI 用の 10 個の実用的なワークフロー コマンドを含む 1 つのリポジトリ(gemini-cli-custom-slash-commands)も共有しました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Demo2-option1.max-1500x1500.png

エージェントにまつわる業界の動向

タイムスタンプ: [17:26]

  • Lang Chain 1.0 Alpha: 人気のライブラリが、Lang Graph を基盤とする新たな統合エージェントの抽象化に再び焦点を当て、状態管理や人間参加型などの本番環境グレードの機能を前面に押し出しています。

  • Embedding Gemma: Google のオープンで軽量なエンべディング モデルの新しいファミリーです。これにより、開発者は、プライバシーを重視したオンデバイス アプリケーションを構築できます。

  • Agentic Design Patterns for Building AI Applications: エージェント パターンに関する教育リソースのリポジトリを作成することを目的とした新しい書籍です。

  • Gemma 3 270M: Google の小型な 2 億 7,000 万パラメータ モデルです。シンプルなタスク用の、小型で効率的なサブエージェントを作成するのに最適です。

  • Zed コードエディタに統合された Gemini CLI: Gemini CLI が Z コードエディタに直接統合されました。これにより、開発者は、コンテキストを切り替えることなくコードを説明したり、スニペットを生成したりすることができるようになりました。

  • 500 AI Agents Projects: オープンソース エージェント プロジェクトのカテゴリ別リストが配置されている GitHub のリポジトリです。

  • Transformer と LLM のチートシート: スタンフォード大学のチームが作成したリソースで、LLM の基本を学ぶための優れた出発点または復習の場になっています。

Gemini CLI に関する Taylor Mullen との会話

今回のエピソードで私が特に注目したのは、Taylor Mullen との深みのある会話です。彼は、Gemini CLI の哲学と未来について、興味深い舞台裏を教えてくれました。取り上げた主な質問は次のとおりです。

Gemini CLI の誕生秘話

タイムスタンプ: [21:00]

Taylor によると、このプロジェクトはマルチエージェント システムの実験として約 1 年半前に始まりました。CLI バージョンが最も魅力的でしたが、当時の技術では速度が遅く、費用もかかりすぎました。Taylor は「CLI バージョンは少し早すぎた点の 1 つでした」と語っています。その後、開発者コミュニティが他の AI 搭載 CLI を歓迎しているのを見て、需要があることがわかったそうです。このことがきっかけで、彼はアイデアに立ち戻り、1 週間のスプリントで最初のプロトタイプを構築しました。

オープンな環境での構築について

タイムスタンプ: [24:14]

Taylor にとって、Gemini CLI をオープンソースにした最大の理由は信頼とセキュリティでした。「私たちは、開発者にその仕組みを正確に理解していただき、信頼していただきたいと考えています」と、Taylor は強調しました。また、オープンソース コミュニティについても熱く語り、「私が一番重視している点です」と述べました。Taylor は、プロジェクトを地に足の着いたものにし、プロジェクトのセキュリティを確保し、開発者にとって適切なものを構築するのに役立つ、不可欠なパートナーとしてコミュニティを捉えています。

Gemini CLI を使用して Gemini CLI 自体を構築

タイムスタンプ: [27:05]

私が、Taylor に対し、チームが毎週 100~150 もの機能、バグ修正、機能強化をリリースできるという驚くべく事実の秘訣を尋ねたところ、答えはシンプルで、Gemini CLI を使用して Gemini CLI 自体を構築しているからでした。

Taylor は、CLI の最初の自社構築機能である独自の Markdown レンダラに関するエピソードを共有してくれました。彼の説明によると、AI を使用して生産性を 10 倍にすることは簡単になってきているものの、真の課題は 100 倍にすることでした。彼のチームにとって、これはエージェントを使用してワークフローを並列化し、人間が費やす時間を最適化することを意味しています。すなわち、AI が最初からすべてを正しく行うということではなく、人間と AI の大規模なコラボレーションのための緊密なフィードバック ループを作成していくということです。

Gemini CLI の仕組み: 「人間がやることを実行する」

タイムスタンプ: [30:58]

Taylor によると、「人間がやることを実行し、近道はしない」ことが基本原則になっています。また、彼は、驚くべきことに、Gemini CLI はソースコード検索にエンベディングを使用していないことを明らかにしました。エンベディングを使うのではなく、grep などのツールを使用してエージェント検索を実行し、ファイルを読み取って参考情報を見つけているとのことでした。これは、人間の開発者がコードベースを理解するために使用するプロセスを正確に模倣していると言えます。目標は、AI を可能な限り関連性の高いリアルタイムのコンテキストにグラウンディングして、最良の結果を生成させることです。

自己治癒と創造的な問題解決について

タイムスタンプ: [33:14]

エージェントの「自己治癒」機能についてもお話ししました。CLI は、行き詰まると、エラーになるどころか、新しい計画を提案します。Taylor は、共有可能なリンクを求められたエージェントが GitHub リポジトリを作成し、GitHub Pages を使用してコンテンツをデプロイした例を挙げました。

次のステップ: 拡張可能な未来

タイムスタンプ: [35:19]

チームは拡張性を強化しています。チームのビジョンは、誰もが拡張機能を構築、共有、インストールできる豊かなエコシステムを構築することです。その拡張機能というのは、単なる新しいツールではなく、特定のワークフローに合わせて調整されたコマンド、手順、MCP サーバーの厳選された一式です。Taylor は、コミュニティがどのようなものを構築し、開発者がそれぞれの独自のニーズに合わせて Gemini CLI をどのようにカスタマイズするのかを見るのが楽しみだと語っています。

構築してみる

Gemini CLI のパワーを理解するのに最善の方法は、実際に試してみることです。

 GitHub にある Gemini CLI をチェックアウトして、コミュニティ プロジェクトを確認したり、問題を報告したり、貢献したりしましょう。会話の全容については、今回のエピソードを視聴してください。また、The Agent Factory に登録して、次回の深い知見が得られるポッドキャストをお待ちください。

私たちのソーシャル メディア

ー デベロッパー リレーションズ エンジニア、Mollie Pettit

投稿先