- Anthropicは2024年10月にClaude 3.5 SonnetとHaikuをアップグレードし、新機能「computer use」を発表しました。
- 一応、従来の「Claude 3.5 Sonnet(2024年6月)」も「Legacy Model」として選択肢に残っていますが、最新の「Claude 3.5 Sonnet(2024年10月)」の方が処理速度や推論能力で向上しています。
- 「computer use」は、AIの生成結果として「コンピューター操作」を追加し、画面をフィードバックとして入力することで動作していく機能で、まだベータ版の段階です。
1. 「Explore Claude models to find your perfect match」
Anthropicから Claudeのモデルについて説明するメールが届きました。
Hello,
Each Claude model has its own distinct personality and, as part of your Pro plan, you can access a variety of Claude models to find the best match for your working style and approach. …
2024年10月22日、Anthropicは Claude の2つのモデルをアップグレードしました。
「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」の性能が向上し、「computer use(コンピューター利用機能)」という新機能も発表されました。
現在1、Claude Proプランで利用できるモデルは、4種類です。
- 最新のClaude 3.5 Sonnet:
現時点で最も高度な知能を持つモデルです - Claude 3 Opus:
創作活動や複雑な作業を得意とするモデルです - 従来のClaude 3.5 Sonnet:
詳細な返答が可能で表現力が豊かなモデルです - Claude 3 Haiku:
日常的な簡単な作業に適した、より高速なモデルです
Claude 3.5 Sonnetは、2024年10月の最新版と、Claude 3.5 Sonnetが登場した時点の2024年6月版2が並列して提供されています。
AIモデルが変わると生成結果の「クセ」に多少の違いはありますが、こだわりがなければ最新のモデルを使う方が性能がよいです。
1-1. Claude 3.5 HaikuはAPIなどでの提供
Claudeには、処理速度と複雑さに応じて Haiku、Sonnet、Opusの3モデルがあります。
Haikuは、高速処理を特徴とするモデルです。
「Claude 3.5 Haiku」は、プログラミング能力を測る指標などで性能が大幅に向上しています。
まだ Claude.ai では使えませんが、APIなどでは提供されています。
1-2. 新機能:computer use
「computer use」は、指示を元にAIがコンピューターを操作できるようにする機能です。
AIは、画面の閲覧、マウス操作、ボタンのクリック、文字入力などができるようになります。
さらに操作結果の画面からフィードバックを受け、少しずつ指示を実行していきます。
コンピューターへの操作をスクリプトとして出力して実行させ、その実行後のスクリーンショットをプロンプトとして入力していくような感じだね。
人間がAIに聞いて、それを実行して、また結果をAIに教えて、というやり取りは「AIの奴隷」みたいな感じで「単調」だもんね。
それこそ自動化したいのはわかる気がする。
かなり重い処理なので、デモを見ると、まだまだ実行は遅いです。
また、この機能は悪用のリスクもあるので、現在ベータ版での開発者向けに制限されています。
2. Claude 3.5 Sonnetの進化
Claude 3.5 Sonnetの最新バージョンは、全体的な性能が向上しました。
学習データが最新になったことだけでなく、処理速度と効率性が大幅に改善されています。
処理速度は以前のバージョンの2倍に向上し、コストも5分の1に削減しました。
特にプログラミングの分野で大きな進歩があります3。
これは、ソフトウェア開発などの特定のタスクに特化する最適化がなされていることも大きいです。
モデルのアーキテクチャでも改良点があります。
- 推論能力
- 視覚情報の統合
具体的には、より高度な推論能力を持ち、複雑な問題解決や分析タスクでの性能が向上しています。
また、テキストだけでなく画像や図表といった視覚的情報も統合して処理する能力が向上しています。
最近は、AIの性能向上に「推論」が注目されているんですね。
(補足)
- 2024-11-16時点
- Introducing Claude 3.5 Sonnet \ Anthropic–
- ソフトウェア開発の能力を測る「SWE-bench Verified」という指標では、成功率が33.4%から49.0%に上昇しました。実際の作業を行う能力を測る「TAU-bench」でも、小売分野で62.6%から69.2%へ、航空分野で36.0%から46.0%へと向上しました。