Claude 3.5のアップグレードと「computer use」

Anthropicは2024年10月にClaude 3.5 SonnetとHaikuをアップグレードし、新機能「computer use」を発表しました。
一応、従来の「Claude 3.5 Sonnet（2024年6月）」も「Legacy Model」として選択肢に残っていますが、最新の「Claude 3.5 Sonnet（2024年10月）」の方が処理速度や推論能力で向上しています。
「computer use」は、AIの生成結果として「コンピューター操作」を追加し、画面をフィードバックとして入力することで動作していく機能で、まだベータ版の段階です。

1. 「Explore Claude models to find your perfect match」

Anthropicから Claudeのモデルについて説明するメールが届きました。

Hello,
Each Claude model has its own distinct personality and, as part of your Pro plan, you can access a variety of Claude models to find the best match for your working style and approach. …

2024年10月22日、Anthropicは Claude の2つのモデルをアップグレードしました。
「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」の性能が向上し、「computer use（コンピューター利用機能）」という新機能も発表されました。

現在¹、Claude Proプランで利用できるモデルは、4種類です。

最新のClaude 3.5 Sonnet（2024-10）：
現時点で最も高度な知能を持つ²
Claude 3 Opus：
創作活動や複雑な作業を得意とする³
従来のClaude 3.5 Sonnet（2024-06）：
詳細な返答が可能で表現力が豊か⁴
Claude 3 Haiku：
日常的な簡単な作業に適した、より高速なモデル⁵

Claude 3.5 Sonnetは、2024年10月の最新版と、Claude 3.5 Sonnetが登場した時点の2024年6月版⁶が並列して提供されています。

AIモデルが変わると生成結果の「クセ」に多少の違いはありますが、こだわりがなければ最新のモデルを使う方が性能がよいです。

2024年6月時点

結局 Claude 3 Opus と 3.5 Sonnetのどっちを使えばいいの？（Claude 3.5 Sonnet）

Anthropicの Claude 3.5 Sonnetは、回答精度・応答速度・コスト効率が良くなりました。日常的な質問や通常のタスクなら Claude 3.5 Sonnet でも十分なレベルになっています。まだ、本一冊まるごと分析するなど、膨大なデータを分析するようなケースでは Claude 3 Opusが役に立つケースもあるようです。私は Claude Pro プランで、今までは主に Claude 3 Opusで文章処理をしていました。これからはまずは Claude 3...

目次に戻る

1-1. Claude 3.5 HaikuはAPIなどでの提供

Claudeには、処理速度と複雑さに応じて Haiku、Sonnet、Opusの3モデルがあります。

Haikuは、高速処理を特徴とするモデルです。
「Claude 3.5 Haiku」は、プログラミング能力を測る指標などで性能が大幅に向上しています。
まだ Claude.ai では使えませんが、APIなどでは提供されています。

目次に戻る

1-2. 新機能：computer use

「computer use」は、指示を元にAIがコンピューターを操作できるようにする機能です。

出典：Claude | Computer use for automating operations – YouTube

AIは、画面の閲覧、マウス操作、ボタンのクリック、文字入力などができるようになります。
さらに操作結果の画面からフィードバックを受け、少しずつ指示を実行していきます。

コンピューターへの操作をスクリプトとして出力して実行させ、その実行後のスクリーンショットをプロンプトとして入力していくような感じだね。

人間がAIに聞いて、それを実行して、また結果をAIに教えて、というやり取りは「AIの奴隷」みたいな感じで「単調」だもんね。
それこそ自動化したいのはわかる気がする。

かなり重い処理なので、デモを見ると、まだまだ実行は遅いです。

また、この機能は悪用のリスクもあるので、現在ベータ版での開発者向けに制限されています。

目次に戻る

2. Claude 3.5 Sonnetの進化

Claude 3.5 Sonnetの最新バージョンは、全体的な性能が向上しました。
学習データが最新になったことだけでなく、処理速度と効率性が大幅に改善されています。

処理速度は以前のバージョンの2倍に向上し、コストも5分の1に削減しました。

特にプログラミングの分野で大きな進歩があります⁷。
これは、ソフトウェア開発などの特定のタスクに特化する最適化がなされていることも大きいです。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic

モデルのアーキテクチャでも改良点があります。

推論能力
視覚情報の統合

具体的には、より高度な推論能力を持ち、複雑な問題解決や分析タスクでの性能が向上しています。
また、テキストだけでなく画像や図表といった視覚的情報も統合して処理する能力が向上しています。

最近は、AIの性能向上に「推論」が注目されているんですね。

こちらもどうぞ。

推論によるスケーリング（OpenAI o1のChain of Thought）

OpenAIが発表した新しい人工知能「o1（オーワン）」は、「Chain of Thought」という推論の仕組みを使って複雑な問題を解決します。問題を小さな部分に分けて段階的に解決することで、より正確な答えを導き出すことができます。モデルサイズではなく推論時間を延長することで性能を向上させるアプローチの登場で、生成AIの世界は大きく変化する可能性があります。従来の生成AIとは違う「推論」の仕組み2024年9月12日、OpenAIは新しい人工知能「o1（オーワン）」を発表しま...

結局 Claude 3 Opus と 3.5 Sonnetのどっちを使えばいいの？（Claude 3.5 Sonnet）

Claudeの新機能Artifactsを表示できるようにした（Claude 3.5 Sonnet, Feature Preview）

Anthropicが新しい人工知能モデル「Claude 3.5 Sonnet」を発表し、その主要機能を紹介しました。新機能「Artifacts」を使うと、AIが生成したコンテンツをリアルタイムで確認・編集できるようになりました。Artifactsを表示するには、claude.aiのメニューにある「Feature Preview」から有効にします。「Claude 3.5 Sonnet is here」というメールAnthropicから「Claude 3.5 Sonnet is ...

（参考）

（補足）

2024-11-16時点
“our most intelligent model to date”
“which excels at creative writing and complex tasks”
“expressive with more detailed replies” –
“a faster model that works well for quick daily tasks”
Introducing Claude 3.5 Sonnet \ Anthropic–
ソフトウェア開発の能力を測る「SWE-bench Verified」という指標では、成功率が33.4%から49.0%に上昇しました。実際の作業を行う能力を測る「TAU-bench」でも、小売分野で62.6%から69.2%へ、航空分野で36.0%から46.0%へと向上しました。