- 「AIエージェント」の特徴は、計画を生成し、それに沿って作業を連続的に実行できることです。
- 従来の生成AIと異なり、人間の判断を仰ぎながら、計画した作業を進めていきます。
2023年は「生成AI元年」だったけど、2025年は「AIエージェント元年」になりそうだね。
AIが何でもやってくれると、まるで人間の方が Yes/No を判定するロボットみたいだね。
1. 「AIエージェント」とは
最近話題の「AIエージェント」って、どう使うの?
これまでも生成AIは精度が上がってきているけど、それと本質的な違いはあるのかな?
「AIエージェント」は、複数のAI技術とデバイスを組み合わせたシステムで、自分で必要な情報を集め、やるべきことを判断して実行することができます。
大事なポイントは「実行」です。
AIエージェントの重要な特徴は:
- 自律性:
人間の詳細な指示がなくても、目標に向かって自ら判断し行動 - 反応性:
環境の変化に即座に対応する能力 - 社会性:
他のシステムやAIと協調して動作する能力
例えば、ウェブサイト制作の場合だと、従来の生成AIでは、「ヘッダーのデザインを作って」「次にメインビジュアルを作って」「お問い合わせフォームのコードを書いて」というように、個別の指示を出し続ける必要がありました。
一方、AIエージェントでは、包括的な指示を出します。
「企業のブランドイメージに合わせた、問い合わせフォーム付きのコーポレートサイトを作成して。ターゲットは30-40代のビジネスパーソンで、スマートフォンでの閲覧を重視したい」ということで、必要な作業はAIエージェントが計画し、実行します。
1-1. 生成AIの現状と課題
どういうこと?
指示を与えるのは同じ気がするけど。
実は、現在の生成AIには大きな課題があります。
企業での利用率は約20%程度に留まり、期待されるほどの業務効率化が実現できていないのです。
その主な理由は:
- 社内システムへのアクセス制限
- 複雑な業務フローへの対応困難
- プロンプト作成の手間
特に、社内のメールやスケジュール管理システム、会計システムなどと連携できないため、業務の自動化が限定的になっています。
1-2. 「すぐに回答しない」
このような課題を解決するために登場したのが「AIエージェント」です。
例えば、「この新商品の販促記事を書いて。ターゲットは20代後半の働く女性」という指示に対して、AIエージェントは、すぐに文章を生成しません。
まず、作業計画を立てます。
「まず市場調査が必要ですね。同様の製品のレビューや、ターゲット層のSNSでの反応を分析しましょう」
次に、情報の収集・分析に移ります。
「競合製品の特徴を分析したところ、このポイントが差別化要因になりそうです」
このような下準備を経て、執筆戦略を決定します。
「まず使用シーンから入り、具体的なベネフィットを説明する流れが効果的そうです」
このように、AIエージェントは単なる文章生成ではなく、目標達成に向けた一連のプロセスを自律的に計画・実行できることが重要な特徴です。
「計画して実行する」というところが、エージェントの強みなんだね。
2. AIエージェントの2つの形
AIエージェントが作業を「実行」する方法には、主に2つの方法があります。
2-1. Computer Use
「画面操作型」は、パソコンの画面を認識し、人間のように操作を行う方法です。
「最新のニュース3件を検索して要約してワード文書にまとめて」といった指示で、自動的にブラウザやWordを操作していきます。
AIには画像認識があるので、いわば「目で動く自動ロボット」です。
従来からパソコンにはマクロやスクリプトなどの自動処理の仕組みがあります。
AIエージェントの強みは、自然言語で指示できることです。
2-2. Model Context Protocol
「システム連携型」は、システム同士が会話するための「共通言語」ようなものを通じて外部のシステムとも直接連携します。
いちいちパソコンを操作せずとも、AIが直接オンラインシステムとやり取りできる「強力な機能」です。
こちらは「テレパシーで動くロボット」です。
この「共通言語」が、「MCP(Model Context Protocol)」。
AIモデルが外部のシステムやデータと効率的に連携するためのプロトコルで、Anthropic社が2024年に公開しています2。
社内システムと外部の予約サイトや会計システムなどを連携すると、出張のスケジュールを伝えるだけで、カレンダーに出張予定を追加するだけでなく、ホテルや新幹線をまとめて予約したり、経費の精算をしたりなどができるようになります。
この方法では、外部データソースやツールを接続するための中継点として、「MCPサーバ」を用意します。
これは外部へのアクセス権や操作記録を管理して、Claude Desktopなどのアプリ(MCP Host)からの指示で動作します。
既存のオンラインシステムをMCPに対応させると、AIエージェントの機能は掛け算で拡張されます。
いよいよAIが現実社会に直接影響を与える動作をしていくんだね……
3. 自律的なAIへの人間の役割
従来の生成AIは、人間からの指示(プロンプト)に対して、その都度回答を生成するという受動的な役割でした。
そのため、利用者は細かい指示を順番に出して、中間成果物を確認し、また次の指示を考える必要がありました。
人間が生成AIの手を引いて誘導するイメージです。
一方、AIエージェントは以下のような特徴を持ちます:
- 与えられた目標に向けて、必要なステップを自ら計画します
- 必要な情報を能動的に収集し、判断を行います
- 中間結果を評価しながら、作業を修正していきます
- 複数のツールやAPI、データソースを自律的に使い分けます
AIエージェントに対しては、最終的な目標と制約条件を明確に示すことが人間の役割です。
あとはAIからのフィードバックに対して、判断を示す作業です。
人間が作業しながら少しずつ問題理解を深めていくやり方とは違いがありますね。
3-1. AIエージェントに誘導される
「判断を示す」ってどういうこと?
AIエージェントは、単なるコード生成ツールではなく、開発プロジェクト全体をリードする役割を果たします。
例えば、「社内の経費精算をより効率的にしたいので、領収書の画像をアップロードすると自動で経費データを作成し、CSVでエクスポートできるウェブツールを作ってください」という目標をAIエージェントに与えてみます。
すると、目標を分析した上で、全体的な設計を提案します。
AIエージェント: 目標を分析しました。以下の要件が必要そうです:
- 画像のアップロード機能
- OCRによる領収書の文字認識
- データの構造化と検証
- CSVエクスポート機能
AIエージェント: 分析結果に基づき、以下のような構成を提案します:
フロントエンド:
- React + TypeScriptで型安全性を確保
- 画像プレビュー用にcanvasライブラリを使用
- 状態管理にはReduxを採用
バックエンド:
- Node.js + Expressでレスト API実装
- TesseractJSでOCR処理
- 画像の一時保存にはS3互換ストレージを使用
これらの技術選定について、ご意見やご要望はありますか?
さらに、開発フェーズを分割して、実行していきます。
AIエージェント: 開発を以下のフェーズに分けて進めることを提案します:
- Phase 1: 基本機能の実装
- Phase 2: データ処理の高度化
- Phase 3: UI/UXの改善
まず、Phase 1から着手してよろしいでしょうか?
AIエージェント: Phase 1の実装を進めています。
画像アップロードコンポーネントを作成しました。
テストしたところ、以下の課題を発見しました:
- 大きいサイズの画像で処理が遅い
- モバイルでの撮影画像が回転する場合がある
解決案として:
- クライアントサイドで画像圧縮を実装
- EXIFデータに基づく自動回転処理の追加
これらの対応を進めてもよろしいでしょうか?
すごいね。
でも、人間のやっている方が「合いの手」みたい。
AIの方がどんな「賢く」なっても、やっぱり人間にしかできない判断があるのは、どうしてなんだろう?
本質的にAIは「部外者」だからなのかもしれませんね。
(補足)
- 2025年バズる「AIエージェント」とは? -具体的に,わかりやすく説明|Takashi Nakayama
- Introducing the Model Context Protocol \ Anthropic