【スポンサーリンク】

「AIエージェント」は計画して動けるAI(生成AIの次のステージ)

「AIエージェント」は計画して動けるAI(生成AIの次のステージ)
  • AIエージェント」の特徴は、計画を生成し、それに沿って作業を連続的に実行できることです。
  • 従来の生成AIと異なり、人間の判断を仰ぎながら、計画した作業を進めていきます。
「AIエージェント」は計画して動けるAI(生成AIの次のステージ)

2023年は「生成AI元年」だったけど、2025年は「AIエージェント元年」になりそうだね。

「AIエージェント」は計画して動けるAI(生成AIの次のステージ)

AIが何でもやってくれると、まるで人間の方が Yes/No を判定するロボットみたいだね。

\記事が役に立ったらシェアしてね/
【スポンサーリンク】

1. 「AIエージェント」とは

「AIエージェント」とは

最近話題の「AIエージェント」って、どう使うの?

これまでも生成AIは精度が上がってきているけど、それと本質的な違いはあるのかな?

AIエージェント」は、複数のAI技術とデバイスを組み合わせたシステムで、自分で必要な情報を集め、やるべきことを判断して実行することができます。
大事なポイントは「実行」です。

「AIエージェント」とは

AIエージェントの重要な特徴は:

  1. 自律性:
    人間の詳細な指示がなくても、目標に向かって自ら判断し行動
  2. 反応性:
    環境の変化に即座に対応する能力
  3. 社会性:
    他のシステムやAIと協調して動作する能力

例えば、ウェブサイト制作の場合だと、従来の生成AIでは、「ヘッダーのデザインを作って」「次にメインビジュアルを作って」「お問い合わせフォームのコードを書いて」というように、個別の指示を出し続ける必要がありました。

一方、AIエージェントでは、包括的な指示を出します。
「企業のブランドイメージに合わせた、問い合わせフォーム付きのコーポレートサイトを作成して。ターゲットは30-40代のビジネスパーソンで、スマートフォンでの閲覧を重視したい」ということで、必要な作業はAIエージェントが計画し、実行します。

主要企業の取り組み1
  • Anthropic社:
    「Computer Use」機能を持つClaude AIを開発。
    AIがパソコン操作を自動的に行うことができます。
  • Microsoft:
    Copilotという個人用AIエージェントを発表。
    複雑な業務に対応する「Copilot Studio」も開発中です。
  • Salesforce: 「Agentforce」という自律型AIエージェントスイートを提供。
    顧客対応や営業支援などに特化しています。

1-1. 生成AIの現状と課題

生成AIの現状と課題

どういうこと?
指示を与えるのは同じ気がするけど。

実は、現在の生成AIには大きな課題があります。
企業での利用率は約20%程度に留まり、期待されるほどの業務効率化が実現できていないのです。

その主な理由は:

  • 社内システムへのアクセス制限
  • 複雑な業務フローへの対応困難
  • プロンプト作成の手間
生成AIの現状と課題

特に、社内のメールやスケジュール管理システム、会計システムなどと連携できないため、業務の自動化が限定的になっています。

1-2. 「すぐに回答しない」

このような課題を解決するために登場したのが「AIエージェント」です。

例えば、「この新商品の販促記事を書いて。ターゲットは20代後半の働く女性」という指示に対して、AIエージェントは、すぐに文章を生成しません。

まず、作業計画を立てます。

「まず市場調査が必要ですね。同様の製品のレビューや、ターゲット層のSNSでの反応を分析しましょう」

次に、情報の収集・分析に移ります。

「競合製品の特徴を分析したところ、このポイントが差別化要因になりそうです」

このような下準備を経て、執筆戦略を決定します。

「まず使用シーンから入り、具体的なベネフィットを説明する流れが効果的そうです」

このように、AIエージェントは単なる文章生成ではなく、目標達成に向けた一連のプロセスを自律的に計画・実行できることが重要な特徴です。

「すぐに回答しない」

「計画して実行する」というところが、エージェントの強みなんだね。

2. AIエージェントの2つの形

AIエージェントが作業を「実行」する方法には、主に2つの方法があります。

AIエージェントの2つの形
  • 画面操作型
    Computer Use型
  • システム連携型
    MCP(Model Context Protocol)型

2-1. Computer Use

画面操作型」は、パソコンの画面を認識し、人間のように操作を行う方法です。

Claude 3.5のアップグレードと「computer use」 – スマホ教室ちいラボ
Claude 3.5のアップグレードと「computer use」 – スマホ教室ちいラボ
例えば

「最新のニュース3件を検索して要約してワード文書にまとめて」といった指示で、自動的にブラウザやWordを操作していきます。

Computer Use

AIには画像認識があるので、いわば「目で動く自動ロボット」です。

従来からパソコンにはマクロやスクリプトなどの自動処理の仕組みがあります。
AIエージェントの強みは、自然言語で指示できることです。

2-2. Model Context Protocol

システム連携型」は、システム同士が会話するための「共通言語」ようなものを通じて外部のシステムとも直接連携します。
いちいちパソコンを操作せずとも、AIが直接オンラインシステムとやり取りできる「強力な機能」です。

Model Context Protocol
Model Context Protocol

こちらは「テレパシーで動くロボット」です。

この「共通言語」が、「MCP(Model Context Protocol)」。
AIモデルが外部のシステムやデータと効率的に連携するためのプロトコルで、Anthropic社が2024年に公開しています2

例えば

社内システムと外部の予約サイトや会計システムなどを連携すると、出張のスケジュールを伝えるだけで、カレンダーに出張予定を追加するだけでなく、ホテルや新幹線をまとめて予約したり、経費の精算をしたりなどができるようになります。

この方法では、外部データソースやツールを接続するための中継点として、「MCPサーバ」を用意します。
これは外部へのアクセス権や操作記録を管理して、Claude Desktopなどのアプリ(MCP Host)からの指示で動作します。

Model Context Protocol

既存のオンラインシステムをMCPに対応させると、AIエージェントの機能は掛け算で拡張されます。

Model Context Protocol

いよいよAIが現実社会に直接影響を与える動作をしていくんだね……

3. 自律的なAIへの人間の役割

従来の生成AIは、人間からの指示(プロンプト)に対して、その都度回答を生成するという受動的な役割でした。

そのため、利用者は細かい指示を順番に出して、中間成果物を確認し、また次の指示を考える必要がありました。
人間が生成AIの手を引いて誘導するイメージです。

一方、AIエージェントは以下のような特徴を持ちます:

  • 与えられた目標に向けて、必要なステップを自ら計画します
  • 必要な情報を能動的に収集し、判断を行います
  • 中間結果を評価しながら、作業を修正していきます
  • 複数のツールやAPI、データソースを自律的に使い分けます

AIエージェントに対しては、最終的な目標と制約条件を明確に示すことが人間の役割です。
あとはAIからのフィードバックに対して、判断を示す作業です。

自律的なAIへの人間の役割

人間が作業しながら少しずつ問題理解を深めていくやり方とは違いがありますね。

3-1. AIエージェントに誘導される

AIエージェントに誘導される

「判断を示す」ってどういうこと?

AIエージェントは、単なるコード生成ツールではなく、開発プロジェクト全体をリードする役割を果たします。

AIエージェントに誘導される

例えば、「社内の経費精算をより効率的にしたいので、領収書の画像をアップロードすると自動で経費データを作成し、CSVでエクスポートできるウェブツールを作ってください」という目標をAIエージェントに与えてみます。
すると、目標を分析した上で、全体的な設計を提案します。

AIエージェント: 目標を分析しました。以下の要件が必要そうです:

  • 画像のアップロード機能
  • OCRによる領収書の文字認識
  • データの構造化と検証
  • CSVエクスポート機能

AIエージェント: 分析結果に基づき、以下のような構成を提案します:

フロントエンド:

  • React + TypeScriptで型安全性を確保
  • 画像プレビュー用にcanvasライブラリを使用
  • 状態管理にはReduxを採用

バックエンド:

  • Node.js + Expressでレスト API実装
  • TesseractJSでOCR処理
  • 画像の一時保存にはS3互換ストレージを使用

これらの技術選定について、ご意見やご要望はありますか?

さらに、開発フェーズを分割して、実行していきます。

AIエージェント: 開発を以下のフェーズに分けて進めることを提案します:

  • Phase 1: 基本機能の実装
  • Phase 2: データ処理の高度化
  • Phase 3: UI/UXの改善

まず、Phase 1から着手してよろしいでしょうか?

AIエージェント: Phase 1の実装を進めています。

画像アップロードコンポーネントを作成しました。
テストしたところ、以下の課題を発見しました:

  • 大きいサイズの画像で処理が遅い
  • モバイルでの撮影画像が回転する場合がある

解決案として:

  • クライアントサイドで画像圧縮を実装
  • EXIFデータに基づく自動回転処理の追加

これらの対応を進めてもよろしいでしょうか?

AIエージェントに誘導される

すごいね。
でも、人間のやっている方が「合いの手」みたい。

AIエージェントに誘導される

AIの方がどんな「賢く」なっても、やっぱり人間にしかできない判断があるのは、どうしてなんだろう?

AIエージェントに誘導される

本質的にAIは「部外者」だからなのかもしれませんね。

こちらもどうぞ。
生成AIだけでは「創れない」問題
生成AIだけでは「創れない」問題
生成AIが生み出す大量のコンテンツは、「創作」としての品質を伴わないものも多いです。そのため、まだまだ指示を出す側である人間の経験や能力も重要で、AIを活用するには役割を分担するのがコツ。あるいは、既存の表現形式から脱却した、「AIに最適化された新しい創作表現」に可能性があるのかもしれません。生成AIを使った「創作」と「手直し」現時点では、生成AIを使ってコンテンツを生み出す「創作」には大きな「課題」があります。高速・大量に作品を生み出せても、品質が低いものが多いことです。品...

推論によるスケーリング(OpenAI o1のChain of Thought)
推論によるスケーリング(OpenAI o1のChain of Thought)
OpenAIが発表した新しい人工知能「o1(オーワン)」は、「Chain of Thought」という推論の仕組みを使って複雑な問題を解決します。問題を小さな部分に分けて段階的に解決することで、より正確な答えを導き出すことができます。モデルサイズではなく推論時間を延長することで性能を向上させるアプローチの登場で、生成AIの世界は大きく変化する可能性があります。従来の生成AIとは違う「推論」の仕組み2024年9月12日、OpenAIは新しい人工知能「o1(オーワン)」を発表しま...

生成AIは「正解のない問題」を聞く道具(検索との違い)
生成AIは「正解のない問題」を聞く道具(検索との違い)
代表的な生成AIとしては、ChatGPT、Copilot、Geminiなどがあります。すごく当たり前ですが、生成AIは「生成」が必要な作業に役立ちます。生成AIを「調べもの」に使うと、「遅くて」「的外れ」な回答が多いと感じるかもしれません。しかし、対話を伝え続けると「文脈」が共有され、徐々に意図に沿った回答が得られるようになります。生成AIは、「正解のない問題」が得意です。反対に「正解がある問題」を調べるには従来の検索エンジンの方が速い面も。「生成AI」というと、「なんでも答...
AIエージェントに誘導される
AIエージェントに誘導される

(補足)

  1. 2025年バズる「AIエージェント」とは? -具体的に,わかりやすく説明|Takashi Nakayama
  2. Introducing the Model Context Protocol \ Anthropic
QRコードを読み込むと、関連記事を確認できます。

「AIエージェント」は計画して動けるAI(生成AIの次のステージ)
【スポンサーリンク】
タイトルとURLをコピーしました