GoogleのGemini 2.5 Computer Useモデルに関する分析レポート

タグ: AIツール Gemini

作成日: 2025年10月08日

動画解説

音声解説

閲覧データ(過去90日間)

ページビュー数: 10回
ユニークユーザー数: 6人
平均セッション時間: 80.13秒

プロンプト

gemini-2.5-computer-use-preview-10-2025がどのようなものか調査して欲しい。

📋 目次

GoogleのGemini 2.5 Computer Useモデルに関する分析レポート

GUIネイティブAIエージェントの到来:Gemini 2.5 Computer Use入門

AIインタラクションにおける新たなパラダイムの定義

Googleによるgemini-2.5-computer-use-preview-10-25モデルのリリースは、人工知能分野における重要な転換点を示しており、言語中心のインタラクションからデジタル環境との直接的なタスク指向のエンゲージメントへの意図的なシフトを象徴しています。1 この特化モデルは、従来のAPI依存の自動化の限界を超えるように設計されており、AIエージェントが人間のユーザーと同様の方法でグラフィカルユーザーインターフェース(GUI)と対話できるパラダイムを導入しています。3 このモデルの中核的な能力は2つあります。スクリーンショットの分析を通じてコンピュータの画面を視覚的に認識し、その後、正確な座標でのマウスクリックやキーボード入力といった特定の低レベルUIアクションを生成することによって、その環境に対して行動を起こすことができます。3

この機能は、単なるテキスト生成やデータ処理を超え、広範なデジタルタスクを自動化できる洗練されたブラウザ制御エージェントの構築を可能にします。3 これは、エージェント型AIの分野における重大なギャップを埋めるものです。多くの現実世界のワークフローは構造化されたAPIを介して公開されておらず、フォーム、ボタン、メニューなどの視覚的要素の直接的な操作を必要とします。2 Googleは、インターフェース制御に特化して大規模言語モデルを最適化することにより、人間向けに設計されたデジタルエコシステム内でシームレスに動作できる次世代の汎用AIエージェントを構築するための基盤技術を創出しました。1

このモデルの導入は、単なる漸進的なアップデートではなく、価値の高いエージェント能力の戦略的な製品化です。Googleは、この能力をより大きなモデルに一般的に組み込むのではなく、独立したツールとしてリリースすることを選択しました。このモジュラーアプローチにより、視覚的なUIデータに特化したファインチューニング、コンピュータ制御のリスクに特有の専門的な安全プロトコルの実装、そして開発者に対する明確で焦点の合った価値提案が可能になります。これは、単一の巨大なAI「頭脳」から、複雑な問題を解決するために組み合わせることができる、専門的でドメイン固有のエージェント能力の包括的な「ツールボックス」へと移行するという、より広範な戦略を示唆しています。

Gemini 2.5エコシステム内での戦略的ポジショニング

gemini-2.5-computer-use-preview-10-2025モデルは単独の創造物ではなく、Googleのより広範なAI戦略と本質的に結びついており、そのフラッグシップモデルであるGemini 2.5 Proの強力な基盤の上に構築された特化アプリケーションとして機能します。1 このモデルの命名法は、そのアイデンティティとステータスを明確に示しています。gemini-2.5という接頭辞は、高度な推論能力とマルチモーダル能力で区別される、Googleの最新かつ最も高性能なAIモデル世代との関連を示します。computer-useという記述子はその特定の機能を定義し、previewというタグは一般提供前(Pre-GA)のステータスを示し、機能は完全であるもののまだ進化中の製品であることを示しています。4 最後に、10-2025は2025年10月のリリース時期を意味します。2

この特化モデルのリリースは、高性能な2.5 Pro、速度とコストを最適化した2.5 Flash、そして高効率な2.5 Flash-Liteを含むGemini 2.5ファミリー全体の展開の中で戦略的にタイミングが計られています。6 Googleは、最高級モデルの上にこの高度なエージェント能力を提供することで、GUIオートメーションをプレミアム機能として位置づけ、Gemini 2.5 Proの視覚的理解力と複雑な推論能力を最大限に活用しています。この戦略的な配置は、信頼性の高いUIインタラクションに要求される計算集約性と洗練度を強調し、よりコモディティ化されたAIタスクとは一線を画すものです。

「なぜ今なのか?」:市場背景と競争上の必須要件

GoogleによるGemini 2.5 Computer Useモデルの導入は、明確な市場ニーズと激化する競争環境に対する直接的かつ積極的な対応です。歴史的に、コンピュータ制御のためのAIエージェントを作成する試みは信頼性の問題に悩まされ、しばしば「不安定」で、要素の誤クリック、画面内容の幻覚、不正確なアクションの実行といったエラーを起こしがちでした。8 これらの欠点により、そのようなツールは実験的または重要でないアプリケーションに限定されていました。市場は、本格的な本番レベルの作業に耐えうる堅牢で正確なソリューションを待ち望んでいました。

このリリースはまた、AIモデルが受動的な情報処理装置から、タスクやワークフローを自律的に実行できる能動的なエージェントへと移行することを特徴とする、AIの「エージェント時代」における重要な動きでもあります。9 AnthropicやOpenAIを含む競合他社も同様の能力を示しており、最先端のコンピュータ制御エージェントの開発は競争上の必須要件となっています。8 精度と速度の両方で主要な代替品を上回るとされるモデルを発売することで、Googleはパフォーマンスと信頼性の新たな基準を確立し、この重要かつ急速に進化する応用AIの領域におけるリーダーとしての地位を確立することを目指しています。2 この技術は、ソフトウェアとその操作者の関係を根本的に変えます。AIがGUIと対話できるようにすることで、「ユーザー」の定義そのものが拡張されます。歴史的に、ソフトウェア開発は人間向けのGUIと機械向けのAPIという厳格な二分法を維持してきました。このモデルはその境界を侵食し、視覚的インターフェース自体を機械が読み取り、行動できる表面として扱います。これはソフトウェア設計の未来に深く、長期的な影響を与え、インターフェースの使いやすさと解釈可能性を、同じ視覚層を通じて操作する人間とAIエージェントの両方を考慮して設計する必要性がますます高まるでしょう。

アーキテクチャの基礎と中核となる動作原理

Gemini 2.5 Proの力を活用

Gemini 2.5 Computer Useモデルの卓越した能力は、そのアーキテクチャ基盤であるGemini 2.5 Proモデルから直接受け継がれています。この基盤となるエンジンは、スパース混合エキスパート(MoE)トランスフォーマーであり、膨大な数のパラメータを持ちながら、任意の入力に対して関連するサブセットのみを活性化させる高度なアーキテクチャで、膨大なモデル容量と計算効率の高い推論を可能にします。11 この構造は、法外な遅延なしに視覚的なUI分析の複雑さを処理するために不可欠です。

Gemini 2.5 Proの3つの中核機能が、Computer Useモデルの機能の基礎となっています。

  1. ネイティブマルチモダリティ: このモデルは、テキスト、画像、音声、動画など、複数のモダリティにわたる情報を処理するためにゼロから設計されました。11 Computer Useツールにとって、そのネイティブな画像理解能力は最も重要であり、中間処理なしに生のスクリーンショットからGUIのコンテンツと構造を解釈することができます。
  2. 長いコンテキストウィンドウ: 最大100万トークンのコンテキストウィンドウを持つGemini 2.5 Proは、非常に長く複雑なインタラクションにわたって状態と履歴を維持することができます。11 これは、複数ページのチェックアウトプロセスをナビゲートしたり、長いフォームに入力したりするなど、エージェントが次の決定を下すために以前のアクションとその結果を覚えておく必要がある多段階タスクに不可欠です。
  3. 高度な推論(「思考」): Gemini 2.5ファミリーの主要な革新は「思考」能力であり、これによりモデルは応答を生成する前により広範な内部計算と推論を実行できます。7 これは単なるより深い検索ではなく、問題を分析し、潜在的なステップを評価し、一貫した計画を策定する構造化されたプロセスです。UIオートメーションの場合、これによりモデルは高レベルの目標(例:「フライトを見つけて予約する」)を、論理的な一連の個別のUIアクション(例:目的地フィールドをクリックし、「ニューヨーク」と入力し、カレンダーアイコンをクリックするなど)に分解することができます。11

エージェントループ:4段階の運用サイクル

開発者のアプリケーションとGemini 2.5 Computer Useモデルとの間のインタラクションは、「エージェントループ」として知られる継続的で周期的なプロセスによって管理されます。この4段階のメカニズムは、モデルがタスクを反復的に実行できるようにするための基本的な運用原理です。1

  1. ステップ1:モデルにリクエストを送信: プロセスは、クライアントサイドのアプリケーションがGemini APIにリクエストを送信することから始まります。このリクエストには、主に2つの情報が含まれています。自然言語で表現されたユーザーの高レベルの目的(例:「この顧客をCRMに追加する」)と、グラフィカルユーザーインターフェースの現在の状態のスクリーンショットです。開発者は、オプションでカスタム関数や除外する標準関数のリストを提供することもできます。
  2. ステップ2:モデルの応答を受信: モデルはリクエストを受け取り、高度な分析を実行します。ユーザーの目標とスクリーンショットに提示された視覚情報を関連付けて、最も論理的な次のアクションを決定します。その後、特定の実行可能なUI操作(例:特定の座標でのclick、特定のテキスト文字列のtype)を表す構造化されたfunction_callを含む応答を生成します。重要なことに、この応答には、潜在的に危険なアクションにフラグを立てるsafety_decisionまたはsafety_responseも含まれる場合があります。
  3. ステップ3:受信したアクションを実行: 実行層として機能するクライアントサイドのコードは、モデルからfunction_callを受け取ります。アクションを実行する前に、まず付随するsafety_decisionを確認する必要があります。アクションが安全であると判断された場合、コードはターゲット環境(例:Playwrightのようなフレームワークで制御されるウェブブラウザ8)でそれを実行できます。アクションが確認を必要とするものとしてフラグ付けされている場合、アプリケーションは一時停止し、続行する前に人間のユーザーに明示的な承認を求める必要があります。
  4. ステップ4:新しい環境状態をキャプチャ: アクションが正常に実行された後、GUIの状態が変化します。クライアントサイドのアプリケーションは、別のスクリーンショットを撮り、現在のURLを取得することによって、この新しい状態をキャプチャします。この新しい視覚情報はfunction_responseにパッケージ化され、モデルに送り返され、ループの次の反復が開始されます。このサイクルは、ユーザーの高レベルの目標が達成されるか、エラーが発生するか、または安全チェックやユーザーの介入によってプロセスが終了するまで繰り返されます。

この運用ループは、スクリーンショットを新しい種類のユニバーサルAPIとして効果的に確立します。従来の自動化は、アプリケーションの基盤となる構造に密接に結合しており、安定した要素ID、DOMパス、または事前に定義されたAPIエンドポイントに依存しています。このアプローチはしばしば脆弱であり、開発者レベルのアクセスを必要とします。対照的に、Computer Useモデルのエージェントループは、自動化ロジックをアプリケーションの内部実装から切り離します。その入力は単にピクセルと目標です。これは、原理的には、レガシーシステム、サードパーティのウェブサイト、パブリックAPIのないプラットフォームなど、視覚的にレンダリングできるあらゆるアプリケーションで動作できることを意味します。「API」はもはやコードではなく、インターフェース自体の視覚的なデザイン言語であり、UI/UXデザイナーが明瞭さと曖昧さのなさを優先する新たな強力なインセンティブを生み出します。これらは今や機械可読性の要因となるためです。

サポートされるアクションとインタラクションモダリティ

人間のインタラクションを効果的に模倣するために、Gemini 2.5 Computer Useモデルは包括的なUI操作タイプのセットをサポートしています。これらのアクションは、現代のデジタルインターフェースをナビゲートするために必要な標準的なインタラクションの大部分をカバーしています。1 サポートされるアクションセットには、以下が含まれますが、これらに限定されません。

  • クリック: 特定の座標でマウスクリックを実行する。
  • タイピング: フォームフィールドやテキストエリアにテキストを入力する。
  • スクロール: ウィンドウ内で垂直または水平にナビゲートする。
  • キーボードの組み合わせ: ショートカット(例:Ctrl+C)を使用して複雑なコマンドを実行する。
  • カーソルホバー: ホバー効果やツールチップをトリガーするために、要素の上にマウスカーソルを移動する。
  • ドロップダウン操作: ドロップダウンメニューを開き、オプションを選択する。

このモデルの主な最適化対象はウェブブラウザであり、そこで最高度のパフォーマンスと信頼性を示しています。2 しかし、モバイルアプリケーションのUI制御においても大きな可能性を示していますが、この分野はまだ完全に最適化されておらず、パフォーマンスにばらつきが見られる可能性があります。2 デスクトップオペレーティングシステムレベルでの制御は、現在のモデルの最適化領域ではありません。2 このブラウザベースのインタラクションへの焦点は、より大きな複雑さとセキュリティ上の課題を持つ完全なデスクトップ制御に拡大する前に、比較的サンドボックス化され標準化されたウェブ環境内から始めるという戦略的な決定を示唆しています。

パフォーマンス分析と競合ベンチマーキング

定量的ベンチマークパフォーマンス

Gemini 2.5 Computer Useモデルは、ウェブおよびモバイル環境におけるAIエージェントの能力を評価するために設計された複数の権威あるベンチマークにおいて、最先端のパフォーマンスを実証しています。この強力な実証的パフォーマンスは、その価値提案の礎であり、技術的に要求の厳しい分野におけるリーダーとして位置づけられています。1

自律型ウェブエージェントを評価するための複雑で現実的な環境であるWebArenaベンチマークでは、このモデルは「主要なパフォーマンス」を達成し、既存のソリューションに対する大きな優位性を示しました。実際のウェブサイトで指示に従う能力をテストするOnline-Mind2Webベンチマークでは、「高い精度」を実証しました。重要なことに、この高い精度は「低遅延の利点」と組み合わされており、応答性が高く実用的なエージェントを作成するための重要な差別化要因となっています。1 第三者によるテストでもこれらの主張は裏付けられており、評価によれば、このモデルは次点の競合製品よりも「通常50%高速」であり、リアルタイムアプリケーションにとって重要な要素です。1 モバイルUI制御タスクにおいても、このモデルは「強力なパフォーマンス」を示し、ウェブブラウザを超えた汎用性を強調しています。1

低遅延に対する一貫した重点は、単なる技術仕様以上のものであり、エージェントによるUI制御を理論的な可能性から実用的で使えるツールへと昇華させる重要な要因です。高遅延はエージェントを鈍重で非効果的にし、その使用をオフラインのバッチ処理タスクに限定してしまいます。業界をリードする応答速度を達成することで、Googleはユーザーと流動的に協働できるリアルタイムの「肩越しの」AIアシスタントの可能性を解き放ちました。

表1:競合パフォーマンスベンチマーク

ベンチマーク Gemini 2.5 Computer Useのパフォーマンス 主要な競合 報告された結果/利点
WebArena 主要なパフォーマンス 1 - 大きな利点 1
Online-Mind2Web 高精度、低遅延 1 次点のソリューション 50%高速 1
モバイル制御 強力なパフォーマンス 1 - マルチプラットフォーム対応 1
Browserbase評価 最先端 Anthropic Sonnet 4.5, OpenAI CUA Sonnet 4.5およびOAI CUAを上回る 10

定性分析と開発者からのフィードバック

定量的なベンチマークを超えて、このモデルのパフォーマンスは、実際のアプリケーションと早期導入者からの肯定的なフィードバックを通じて検証されています。AIエージェントを開発する企業であるAutotabは、複雑なシナリオでコンテキストを確実に解析する際に、Gemini 2.5 Computer Useモデルが「他のモデルを凌駕し、我々の最も困難な評価では最大18%のパフォーマンス向上を示した」と報告しています。1 このフィードバックは、モデルの高度な推論能力と、複雑なユーザーインターフェースにおけるニュアンスや曖昧さを処理する能力を浮き彫りにしています。

Google自身の社内チームが主要なユーザーとなり、モデルの実用的な価値と信頼性の強力な証拠を提供しています。例えば、Google Payment Platform Teamは、わずかなインターフェースの変更で壊れやすいエンドツーエンドのUIテストに課題を抱えていました。Gemini 2.5 Computer Useモデルを導入してUIをインテリジェントにナビゲートし、変更に適応させることで、チームはテスト実行の失敗の60%以上を修正することに成功しました。この成果は、診断と修復に数日間の手作業によるエンジニアリング工数を要したであろうものを節約し、大きな投資収益率につながりました。1 この社内ケーススタディは、モデルが具体的でコストのかかるビジネス問題を解決する能力を実証しています。

競合状況

Gemini 2.5 Computer Useモデルのリリースは、競争の激しい状況における戦略的な動きです。この分野の主要なライバルには、Sonnet 4.5のようなモデルを持つAnthropicや、独自のComputer Use Agent(CUA)能力を開発したOpenAIが含まれます。10 この文脈において、明確なパフォーマンスリーダーシップを確立することが重要です。

第三者のテストプラットフォームであるBrowserbaseが実施した独立した評価によると、Gemini 2.5 Computer Useモデルは「Sonnet 4.5とOAI CUAを上回る」と報告されています。10 この外部からの検証は、モデルの最先端(SOTA)ステータスを客観的に評価するものであり、非常に重要です。Googleのこの市場への参入は、単に参加するためだけでなく、パフォーマンスの基準を再定義し、業界を過去の信頼性の低い「不安定な」エージェントから脱却させ、GUIオートメーションにおける精度、速度、信頼性の新たなベンチマークを確立することを目的としています。8

WebArenaのような特定のタスク指向のベンチマークへの焦点と、Browserbaseのような第三者評価機関の利用は、AI業界の成熟を示しています。競争の最前線は、抽象的な言語ベースの指標から、複雑で現実世界のエージェントタスクにおける実証可能なパフォーマンスへと移行しています。これらの新しい実践的なベンチマークにおけるリーダーシップは、マーケティング、検証、そしてエージェント型AI時代における技術的優位性を確立するための主要なツールとなりつつあります。

戦略的応用と実世界のユースケース

エンタープライズワークフローの自動化

Gemini 2.5 Computer Useモデルは、特にAPIアクセスがない、またはプロセスの変動性が高いという理由でこれまで自動化が困難だった、広範なエンタープライズオートメーションの課題に対処するように設計されています。主な応用分野は3つの主要なカテゴリに分類されます1。

  • 反復的なデータ入力とフォーム記入: これは主要なユースケースであり、メールからCRMへの顧客情報の転送、請求書の作成、レガシーシステム間のデータ移行などのタスクの自動化を可能にします。エージェントはフォームフィールドを視覚的に識別し、正しいデータを入力することで、退屈でエラーの起こりやすい手作業を排除します。
  • クロスプラットフォームの情報収集: このモデルは、複数のウェブサイトをナビゲートして情報を集約するタスクを任せることができます。例えば、eコマース事業者は、自社の戦略に役立てるために、様々なオンラインストアから競合他社の価格、商品説明、顧客レビューを自動的に収集するエージェントを展開できます。
  • 複雑なアプリケーションシーケンス: エージェントは、ウェブアプリケーション内で多段階のワークフローを実行することでユーザーを支援できます。これには、複雑な複数区間の旅行の予約、オンラインポータルでの製品の設定、一連の社内ウェブベースツールを介した請求の処理などが含まれます。

これらの能力は、多くのビジネスドメインで応用可能です。eコマースでは、業務効率を向上させることができます。コンテンツ管理では、データ移行と公開を自動化し、時間とエラー率を削減できます。カスタマーサービスでは、サポートプロセスの一部を自動化し、応答時間の短縮と満足度の向上につながります。1 このモデルの強みは、自動化の「ロングテール」に取り組む能力にあります。これは、従来のロボティック・プロセス・オートメーション(RPA)には複雑すぎるが、ナレッジワーカーの生産性を cumulatively に大きく低下させている、膨大な数の半構造化されたアドホックなデジタルタスクです。

UIオートメーションとソフトウェアテスト

Gemini 2.5 Computer Useモデルの特に影響の大きい応用分野は、ソフトウェア品質保証の領域です。従来の自動UIテストは、静的なセレクタ(要素IDやXPathなど)に依存してインターフェースコンポーネントを識別し、操作します。このアプローチは非常に脆弱で、アプリケーションのコードやUIにわずかな変更が加えられるだけでテストスイート全体が壊れてしまい、高いメンテナンスオーバーヘッドにつながります。1

Google Payment Platform Teamの成功事例は、強力な概念実証として機能します。1 モデルの視覚的理解力を活用することで、彼らは基盤となるコード構造に依存しないテストを作成しました。AIエージェントは、IDやクラスが変更されても、その外観とコンテキストに基づいて「送信」ボタンを識別できます。この、より堅牢で、回復力があり、インテリジェントな自動テストを作成する能力は、ソフトウェア開発ライフサイクルを革命的に変え、手作業を削減し、リリースサイクルを加速し、全体的なソフトウェア品質を向上させることを約束します。

デモンストレーションと概念実証

このモデルの高度な能力を示すために、Googleは単純なクリックやタイピングをはるかに超える、いくつかの複雑で多段階のデモンストレーションを公開しています。これらの概念実証は、モデルがコンテキストを維持し、タスクについて推論し、動的でステートフルなアプリケーションと対話する能力を浮き彫りにしています。

著名なデモの一つに、ペットスパの包括的なワークフローがあります。エージェントは、あるウェブサイトからカリフォルニア在住のペットオーナーを見つけ、別のCRMアプリケーションに移動し、抽出した各ペットの詳細を新しいゲストとして追加し、その後、特定の日時に特定の専門家とのフォローアップ予約をスケジュールするという高レベルのプロンプトを与えられます。2 このタスクは、データ抽出、異なるウェブドメイン間のナビゲーション、様々なフォーム要素との対話、そして予約を完了するための論理的推論を必要とします。

もう一つの説得力のあるデモンストレーションは、モデルが混沌としたデジタルの付箋ボードを整理する様子を示しています。エージェントは、ごちゃ混ぜになった仮想の付箋をボード上の所定のカテゴリに分類するように指示されます。これは、各付箋を視覚的に識別し、その内容を読み、正しいカテゴリを決定し、そしてそれを正しいセクションに移動するために「ドラッグアンドドロップ」アクションを実行することによって達成されます。2 これは、空間的関係を理解し、単純なクリックを超えたより複雑な操作を実行する能力を示しています。これらのデモンストレーションは、このモデルが単に既存のプロセスをより速く実行するためのツールではなく、それらのプロセスをAIネイティブな労働力のために根本的に再設計する触媒であることを証明しています。人間のオペレーターの限界を中心に設計されたワークフローは、今や完全なエンドツーエンドの自動化のために再考することができます。

安全性、セキュリティ、リスク軽減のためのフレームワーク

新たなリスクベクトルの認識

AIエージェントにコンピュータインターフェースの直接制御を許可することは、テキスト生成やデータ分析に関連するリスクとは大きく異なる、新しいクラスのリスクをもたらします。Googleのドキュメントはこれらの課題を明確に認めており、プレビューモデルは「エラーやセキュリティの脆弱性を起こしやすい」可能性があり、提案されるアクションが常に適切または安全であるとは限らないと述べています。3 この技術の責任ある実装には、これらの新しいリスクベクトルを明確に理解することが必要です。これらには以下が含まれます1。

  • 信頼できないコンテンツと詐欺: オープンなウェブをナビゲートする際、エージェントは人間のユーザーと同じ悪意のあるコンテンツにさらされます。欺瞞的な広告、フィッシングリンク、詐欺的なポップアップに遭遇し、これらをユーザーの意図したワークフローの一部であると誤解した場合、意図しない結果につながる可能性があります。
  • 時折発生する意図しないアクション: モデルは、ユーザーの目標と画面の視覚的レイアウトを確率的に理解して動作します。これにより、時折誤解が生じ、エージェントが間違ったボタンをクリックしたり、誤ったフィールドにデータを入力したり、意図したパスから外れたりする可能性があります。このようなエラーは、無害なタスクの失敗から、データ漏洩のようなより深刻な問題にまで及ぶ可能性があります。
  • ポリシー違反: エージェントの能力は、意図的または意図せずに、Googleの生成AI禁止使用ポリシーに違反する活動に向けられる可能性があります。これには、CAPTCHAのようなセキュリティ対策を回避する試み、システムの完全性を損なうこと、または設計されていない機密システムとの対話が含まれます。

Googleの組み込み安全メカニズム

これらの固有のリスクを軽減するために、GoogleはモデルのAPI応答に直接多層的な安全システムを統合しています。このシステムは、アクションが実行される前に重要なチェックとして機能し、監視と制御のメカニズムを提供します。1 このシステムの中核は、すべてのfunction_callと共に返されるsafety_decision(またはsafety_response)オブジェクトです。このオブジェクトは、モデルが提案するアクションを次の2つのカテゴリのいずれかに分類します。

  1. 通常/許可: この分類は、モデルの内部安全システムが提案されたアクション(例:検索バーにテキストを入力する)を分析し、安全であると判断したことを示します。この場合、クライアントサイドのアプリケーションは自動的にアクションを実行できます。safety_decisionオブジェクトが存在しない場合も、アクションが許可されていることを意味します。
  2. 確認が必要 (require_confirmation): この分類は、モデルがより高いレベルの潜在的リスクを伴うアクションを実行しようとしていることを示す重要なフラグとして機能します。例としては、「クッキーバナーを受け入れる」をクリックする、個人情報を含む可能性のあるフォームを送信する、購入に関連する要素と対話するなどがあります。このフラグが存在する場合、開発者のアプリケーションは自動化を一時停止し、アクションを実行する前にエンドユーザーに明示的な確認を求めることが義務付けられています。

この組み込みの安全チェックは基本的な保護層を提供しますが、開発者が実装する安全策と連携して機能するように設計されています。

開発者の責任とヒューマンインザループ(HITL)の重要な役割

Googleは共同責任の原則を非常に重視しており、このツールで構築されたアプリケーションの最終的な安全性は開発者にあることを明確にしています。ドキュメントでは、require_confirmationフラグが受信された場合、開発者はユーザー確認フローを必ず実装しなければならないと繰り返し強調しています。4 さらに、モデルは「重要なタスク中は綿密に監督されるべき」という強力なガイダンスを提供しています。3

このモデルのプレビュー版には、明確かつ重要な制限があります。以下のタスクには使用すべきではありません

  • 重要な意思決定
  • 機密データ
  • 重大なエラーが修正できないアクション 3

このヒューマンインザループ(HITL)とユーザー確認フローの必須実装は、この強力な技術を責任を持って展開するために支払わなければならない、開発工数とユーザーエクスペリエンスの摩擦の両方における避けられないオーバーヘッドである「安全税」を表しています。この税は、さまざまなユースケースの経済的実行可能性における重要な要素です。すべての確認プロンプトは、エージェントの自律性を低下させ、ユーザーに対話的なステップを追加し、シームレスな自動化と堅牢な安全性との間の直接的なトレードオフを生み出します。監督と最終確認の責任を明示的に開発者に課すことで、Googleは責任に関する明確な法的および倫理的枠組みも確立しています。この前例は、自律型エージェントを展開するための注意基準が、堅牢で人間中心のガードレールの実装を要求し、失敗の責任は、それらの安全策を設計した、または設計しなかった当事者に帰する可能性が高いことを示唆しています。

実装、価格設定、プレビューステータス

開発者アクセスと実装

Gemini 2.5 Computer Useモデルへのアクセスと実装は、Googleの標準的な開発者プラットフォームであるGemini APIを通じて行われます。これは、個人開発者向けのGoogle AI Studioと、エンタープライズ顧客向けのVertex AIで利用可能です。1 この機能を有効にするには、開発者は特定のモデル識別子gemini-2.5-computer-use-preview-10-2025を使用する必要があります。このツールはこのバージョンとのみ互換性があるためです。4

実装プロセスには2つの重要なステップが含まれます。まず、開発者はAPIリクエストにComputer Useツールを明示的に追加し、UIオートメーションタスクを実行する意図をモデルに伝える必要があります。次に、エージェントループを管理するクライアントサイドの実行層を構築する必要があります。これには、スクリーンショット付きのリクエストの送信、モデルのfunction_callとsafety_decisionの受信と解析、制御されたブラウザ環境でのアクションの実行、そしてループを継続するための新しい状態のキャプチャを処理するコード(通常はPlaywrightのようなライブラリを使用したPython)を記述することが含まれます。4

価格構造:最高級ティアとの同等性

Gemini 2.5 Computer Useツールの価格モデルは単純明快で、Googleの最も強力なモデルであるGemini 2.5 Proと直接連携しています。公式ドキュメントには、「Gemini 2.5 Proと同じ料金とSKUを使用する」と記載されており、プレミアムでエンタープライズグレードの機能として位置づけられています。1

コストは処理されたトークンの数に基づいて計算され、入力と出力で別々の料金が設定されています。価格設定における重要な要素は入力コンテキストのサイズであり、200,000トークンでティアが分かれます。モデルの内部的な「推論」または「思考」プロセスのコストは、出力トークンの請求に含まれています。15 バッチAPIも利用可能で、非対話型で大量のタスクに対して約50%の大幅な割引を提供します。

この特化ツールを最も先進的なベースモデルと同一価格に設定することで、Googleはその認識されている価値について明確な声明を出しています。GUIオートメーションは、低コストのコモディティなアドオンとしてではなく、最先端モデルの完全な推論能力を解き放つ高価値の機能として位置づけられています。この価格戦略は、プレミアムコストを正当化できる潜在的な投資収益率を持つ複雑な自動化シナリオをターゲットにしています。

表2:詳細な価格構造(Gemini 2.5 Proに基づく)

コンテキストサイズ 入力価格(100万トークンあたり) 出力価格(100万トークンあたり、推論を含む) バッチAPI入力価格(100万トークンあたり) バッチAPI出力価格(100万トークンあたり)
<= 20万入力トークン $1.25 $10.00 $0.625 $5.00
> 20万入力トークン $2.50 $15.00 $1.25 $7.50
注:価格はテキスト、画像、動画、音声入力に対するものです。データ出典15        

「プレビュー」(Pre-GA)指定の理解

この技術を評価する組織にとって、現在の「プレビュー」または一般提供前(Pre-GA)ステータスの意味を完全に理解することが不可欠です。この指定は、モデルが強力で機能豊富である一方で、まだ完全に成熟し、本番環境で安定した製品とは見なされていないことを意味します。開発者は、以下の制限と免責事項を認識しておく必要があります3。

  • 「現状有姿」での提供: モデルは「現状有姿」で提供され、一般提供されている製品と比較して技術サポートが限定される場合があります。
  • エラーの可能性: システムは、まだ対処中のエラー、バグ、セキュリティの脆弱性を起こしやすい可能性があります。
  • パフォーマンスのばらつき: モデルはまだすべての環境、特にモバイル向けに完全に最適化されておらず、パフォーマンスに影響が出る可能性があります。4
  • 制限されたユースケース: 前述の通り、ミッションクリティカルなアプリケーション、機密データ、またはエラーが重大で不可逆的な損害につながる可能性のあるタスクでの使用は明示的に推奨されていません。

「Pre-GA」ラベルは、Googleにとって重要な二重の目的を果たします。法的には、まだ進化中の技術に対する明確な期待値を設定し、責任を限定します。戦略的には、大規模で現実世界の公開ベータテストとして機能します。世界中の開発者コミュニティが、無限の種類のウェブサイトやアプリケーションでモデルをどのように使用し、必然的にどのように壊すかを観察することで、Googleは一般的な障害モード、新たなユースケース、および安全システムに必要な改善に関する貴重なデータを収集することができます。このフェーズは、洗練された最終製品を提供することよりも、開発者エコシステムを活用して、現実世界のGUIインタラクションの複雑で予測不可能な状況をマッピングすることに重点を置いており、これが将来の一般提供(GA)バージョンの開発と強化に直接反映されます。

戦略的展望と将来の軌跡

特化ツールから基盤能力への道

Gemini 2.5 Computer Useモデルの現在の姿は、特化されたプレビュー段階のツールであり、これははるかに長い戦略的な旅の第一歩として理解するのが最も適切です。この広範な公開プレビュー段階で収集された学びは、モデルの信頼性を向上させ、その能力を拡大し、安全プロトコルを強化する上で不可欠となります。この技術の論理的な軌跡は、明確な開発者向けツールから、より強力で汎用的なAIエージェントの将来の世代にシームレスに統合された基盤的な能力へと進化することです。

将来のイテレーションでは、モバイルとデスクトップの両方のオペレーティングシステムに対する成熟し、完全に最適化された制御を含む、より広範なプラットフォームサポートが見込まれます。モデルの精度と安全性が向上するにつれて、より広範なタスクに対して頻繁な人間の確認への依存が減少し、より大きな自律性が可能になるかもしれません。最終的な目標は、基盤となるプラットフォームに関係なく、ユーザーに代わってあらゆるアプリケーションやデジタルサービスと対話できるユニバーサルアシスタントとして機能するAIエージェントを作成することです。

この技術の論理的な終着点は、オペレーティングシステムレベルでの深い統合です。現在のブラウザファーストのアプローチは、中核的な能力を開発しテストするための安全で比較的サンドボックス化された環境を提供します。しかし、真の汎用エージェントは、ファイルを管理し、システムレベルのタスクを調整し、ユーザーのマシン上のあらゆるアプリケーションを制御できなければなりません。これははるかに大きな野望を表しており、現在のモデルはその目標に向けた計算された必要な一歩です。

仕事とソフトウェアインタラクションの未来の再定義

高性能で信頼性の高いGUIエージェントが広く利用可能になることは、デジタル労働、ソフトウェア設計、ヒューマン・コンピュータ・インタラクションの性質を根本的に変える、非常に破壊的な力となる可能性があります。ナレッジワーカーにとっては、アプリケーション間のデータコピー、反復的なフォーム入力、複雑な社内システムのナビゲーションなど、就業時間のかなりの部分を占める膨大な量のデジタルな「単純作業」を自動化することを約束します。これにより、人間の資本を、創造性、戦略的思考、対人コラボレーションを伴う、より価値の高いタスクに集中させることができます。

この技術は、ユーザーが単純な自然言語コマンドを通じて、複雑で複数のアプリケーションにまたがるタスクをAIエージェントに委任できる未来をもたらす可能性があります。ユーザーはエージェントに「東京への旅行に最適なフライトオプションを調査し、カレンダーの空き状況と照合し、保存された支払い情報を使用して最適な選択肢を予約し、旅程をカレンダーに追加して」と指示するかもしれません。個人のデジタルライフのためのパーソナライズされた「オートパイロット」というこのビジョンは、エージェント型AIの究極の目標を表しています。

この変化はまた、現代のSaaS(Software-as-a-Service)経済の基盤そのものを破壊する可能性を秘めています。この経済の大部分は、しばしばアプリケーション間の収益化された「有料道路」として機能するAPIを介したデータ交換の上に成り立っています。しかし、普遍的に熟達したGUIエージェントは、普遍的なバイパスとして機能することができます。エージェントが単にアプリケーションを開いて必要なデータを視覚的に抽出し、ユーザーインターフェースを通じて情報を入力できる場合、多くのユースケースで高価なAPIアクセスに支払う経済的インセンティブは減少する可能性があります。これは、ソフトウェア企業による長期的な戦略的再評価を引き起こす可能性があり、機械が読みにくいように意図されたより防御的なUI設計や、API消費だけに依存しない新しいビジネスモデルの開発につながる可能性があります。

結論:エージェントの未来への計算された一歩

結論として、gemini-2.5-computer-use-preview-10-2025モデルは、技術的に印象的で、戦略的に重要であり、エージェント型人工知能の次のフロンティアへの意図的に慎重な進出です。これは、Gemini 2.5 Proの最先端のマルチモーダル推論を活用して、AIコミュニティが長年抱いてきた野望、すなわち、人間がするように視覚的インターフェースを通じてデジタル世界を理解し操作する能力を提供します。そのベンチマークをリードするパフォーマンスと実世界のユースケースでの成功した応用は、新たなレベルの自動化と生産性を解き放つその計り知れない可能性を示しています。

しかし、その力は、固有のリスクの重大さと釣り合っています。Googleがこれをプレビューとして、明確な制限と、開発者の責任および人間の監督を強く強調してリリースするという決定は、このような変革的な技術を展開するための成熟した必要なアプローチを反映しています。現在の形のモデルは、自律的な「魔法の弾丸」ではなく、開発者が新しいクラスのヒューマンインザループアプリケーションを構築するための強力なツールです。その成功は、AIの基盤となる知性と同じくらい、安全ガードレールとユーザー確認フローの思慮深い設計に依存するでしょう。開発者や企業にとって、Gemini 2.5 Computer Useモデルはエージェントの未来を垣間見せますが、それは自動化の計り知れない力と、人間の制御と説明責任という譲れない必須要件とのバランスをとる、慎重でリスクを認識したアプローチで入らなければならない未来です。

引用文献

  1. 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary Breakthrough in AI Agent Interface Control, 10月 8, 2025にアクセス、 https://dev.to/czmilo/2025-complete-guide-gemini-25-computer-use-model-revolutionary-breakthrough-in-ai-agent-133
  2. Introducing the Gemini 2.5 Computer Use model - Google Blog, 10月 8, 2025にアクセス、 https://blog.google/technology/google-deepmind/gemini-computer-use-model/
  3. Computer Use Gemini API - Google AI for Developers, 10月 8, 2025にアクセス、 https://ai.google.dev/gemini-api/docs/computer-use
  4. Computer Use model and tool Generative AI on Vertex AI - Google Cloud, 10月 8, 2025にアクセス、 https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use
  5. Google debuts Gemini 2.5 Computer Use, an AI model with human-like web browsing skills, 10月 8, 2025にアクセス、 https://indianexpress.com/article/technology/artificial-intelligence/google-gemini-2-5-computer-use-ai-web-browsing-10294196/
  6. Gemini 2.5: Updates to our family of thinking models - Google Developers Blog, 10月 8, 2025にアクセス、 https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
  7. Gemini - Google DeepMind, 10月 8, 2025にアクセス、 https://deepmind.google/models/gemini/
  8. Google’s new AI actually controls your computer - The Neuron, 10月 8, 2025にアクセス、 https://www.theneurondaily.com/p/google-s-new-ai-actually-controls-your-computer
  9. Gemini 2.0 model updates: 2.0 Flash, Flash-Lite, Pro Experimental - Google Blog, 10月 8, 2025にアクセス、 https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/
  10. AINews AINews, 10月 8, 2025にアクセス、 https://news.smol.ai/
  11. Gemini 2.5: Pushing the Frontier with Advanced … - Googleapis.com, 10月 8, 2025にアクセス、 https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
  12. Gemini 2.5 Pro Generative AI on Vertex AI - Google Cloud, 10月 8, 2025にアクセス、 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro
  13. Gemini 2.5: Our most intelligent AI model - Google Blog, 10月 8, 2025にアクセス、 https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
  14. Gemini 2.5 Pro - Google DeepMind, 10月 8, 2025にアクセス、 https://deepmind.google/models/gemini/pro/
  15. Vertex AI Pricing Generative AI on Vertex AI Google Cloud, 10月 8, 2025にアクセス、 https://cloud.google.com/vertex-ai/generative-ai/pricing
  16. Gemini AI Pricing: What You’ll Really Pay In 2025 - CloudZero, 10月 8, 2025にアクセス、 https://www.cloudzero.com/blog/gemini-pricing/
タグ: AIツール Gemini