- OpenAIが発表した新しい人工知能「o1(オーワン)」は、「Chain of Thought」という推論の仕組みを使って複雑な問題を解決します。
- 問題を小さな部分に分けて段階的に解決することで、より正確な答えを導き出すことができます。
- モデルサイズではなく推論時間を延長することで性能を向上させるアプローチの登場で、生成AIの世界は大きく変化する可能性があります。
1. 従来の生成AIとは違う「推論」の仕組み
2024年9月12日、OpenAIは新しい人工知能「o1(オーワン)」を発表しました1。
o1の特徴は、従来のモデル(GPT-4o)と比べると、処理に時間をかけるように設計されていること。
特に科学、コーディング、数学のより複雑な問題解決に優れたパフォーマンスを発揮するのが特徴です。
今までのAIは、学習データの「量」で高い精度の答えを出していました。
しかし、o1は推論の「計算時間」によって問題解決を目指せることを示しています。
「o1」は、発表前は「Q*」「Strawberry」などのコードネームで呼ばれていました2。
1-1. Chain of Thought(思考の連鎖)
「推論」とは、段階を踏んで考えることです。
o1モデルの核は、「Chain of Thought(思考の連鎖)」という仕組み。
これは、問題を解く過程で中間的な推論ステップを生成するものです。
問題を解く過程を細かく記録しながら答えを出します。
段階を踏んで考えて、より正確な答えを出せるようになりました。
o1は、自身の間違いを認識し、修正することを学習します。
扱いにくい手順を、よりシンプルな手順に分解することを学習します。
現在のアプローチが上手くいかないときに、別のアプローチを試すことを学習します
例えば、難しい数学の問題を解くとき、私たちは一気に答えを出すのではなく、少しずつ計算をしていきますよね。
o1は既存のChain of Thought技術を改良し、より効果的に活用しています
これまでもプロンプトの工夫で「思考方法」を模倣させることはできたよね。
CoTでは思考プロセスをバックグラウンドで生成できるのがポイントなのかな。
2. 推論によるスケーリングの意義
「推論」というアプローチの良いところは、知識だけに頼らないこと。
これは、生成AIの進歩に大きな変化をもたらす可能性を秘めています。
というのも、思考の連鎖を長くすることで、モデルの問題解決能力が大幅に向上することが示されたからです。
これまでの大規模言語モデル(LLM)の進歩の大部分は言語主導でした。
より多様なデータを元に、より強力なGPUで訓練をし、モデルのパラメータ数を増やすことで性能向上を図ってきました。
例えば、GPT-3からGPT-4へと進化する過程では、パラメータ数を大幅に増加させています。
しかし、単純な質問に答えたり、文章を書いたりするのは得意でしたが、複雑な問題を解くのは苦手でした。
事前学習のために膨大な計算リソースを用意することが徐々に難しくなり、それが「限界」として見えてきていたからです。
2-1. 推論時間と推論トークン
一方、o1の推論では、事前学習だけでなく、回答生成時にもマシンパワーを使います。
従来のアプローチでは、学習済みのモデルの推論時間はほぼ一定でした。
一方、o1モデルは必要に応じて推論時間を延長することができます。
つまり、問題を解く際の「思考時間」を延ばすことで性能を向上させるのです。
これは「推論スケーリング」と呼ばれる新しい方法です。
この利点は、モデルサイズを変えずに性能を向上できる点です。
ただし、推論時間が長くなるため、即時性を求められるタスクには適さない可能性があります。
また、複雑な思考プロセスには、OpenAI o1は「推論トークン」を消費します。
つまり、精度を上げるために、トークンコストや処理時間は増加しています。
o1モデルは従来の「モデルの大きさ」というスケーリングに加えて、「思考の時間」という新たなスケーリングの軸を導入したと言えます。
3. 計算量と現実時間
もちろん、o1にも課題はあります。
理論的には、思考の連鎖を「十分に」長くすれば、複雑な問題でも解決できるはずですが、現実的はそう甘くはありません。
3-1. ハルシネーションの連鎖・蓄積
どのAIモデルにも、誤った情報の生成する「ハルシネーション」の可能性があります。
これは、思考の連鎖が長くなるほど、誤りが蓄積されるリスクが高まる可能性があります。
途中で間違った推論をしてしまうと、最終的な答えも間違ってしまう可能性があるのです。
3-2. 非決定性の問題
また、一部の問題では、計算時間が予測不可能になる場合があります。
組み合わせが複雑化すると、必要な計算量は急激に増加します。
そのため、推論が終わらない可能性があるからです。
これは、実時間での応答を要求されるシステムでは大きな課題となります。
3-3. AIの回答の「発散」問題
これまでの大規模言語モデル(LLM)は、自由に会話を続けさせると話題がどんどん広がっていく傾向がありました。
話題は広がる一方でまとまらないのは、まるで「エントロピーの増大」のような、LLMの本質的な特徴なのかもしれません。
しかし、この考えは覆る可能性もあります。
「思考の連鎖」では、推論の各段階に報酬関数を設定し、強化学習を行うことで、LLMが一つの答えにたどり着けるようになったというのです。
もちろん、この方法にも課題があります。
数学の問題のように正解が明確な場合は強化学習が可能です。
しかし、現実世界の問題の多くは、決まった答えがないものの方が多いです(オープンエンド)。
そのため、強化学習を適用するのが難しいという問題があります。
3-4. 有限の時間を生きる人間の知恵
人間には思考時間(=計算量)を減らすための「知恵」があります。
- 多くの場合、厳密解ではなく近似解で満足します。
- 過去の経験から、どのような問題が現実的な時間で解けるかについての直感を持っています。
- 全ての問題を解こうとするのではなく、社会や組織が求める問題に焦点(有意義)を当てるようにします。
将来的には、AIの推論もさらに洗練されていくことが期待されます。
悩むことでよい回答になるけど、悩みすぎないこと大事なんだね。
思考を切り上げることも「賢さ」なんだね。
(補足)
- 「米新興企業オープンAIが12日に新たな人工知能(AI)「o1(オーワン)」を発表したことで、人間のように広範な知的活動を遂行できる汎用人工知能(AGI)への道筋が見えてきた。」 – OpenAI「思考の連鎖」が導く汎用AIへの道 編集委員 吉川和輝 – 日本経済新聞
- オープンAIが先週リリースした新たなモデル「o1」(以前は「ストロベリー(Strawberry)」というコードネームで呼ばれており、その前はQ*だった)は、この種の目的でGPT-4oを圧倒するものだ。 – MIT Tech Review: GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由