【スポンサーリンク】

推論によるスケーリング(OpenAI o1のChain of Thought)

推論によるスケーリング(OpenAI o1のChain of Thought)
  • OpenAIが発表した新しい人工知能「o1(オーワン)」は、「Chain of Thought」という推論の仕組みを使って複雑な問題を解決します。
  • 問題を小さな部分に分けて段階的に解決することで、より正確な答えを導き出すことができます。
  • モデルサイズではなく推論時間を延長することで性能を向上させるアプローチの登場で、生成AIの世界は大きく変化する可能性があります。
\記事が役に立ったらシェアしてね/
【スポンサーリンク】

1. 従来の生成AIとは違う「推論」の仕組み

2024年9月12日、OpenAIは新しい人工知能「o1(オーワン)」を発表しました1

o1の特徴は、従来のモデル(GPT-4o)と比べると、処理に時間をかけるように設計されていること。
特に科学、コーディング、数学のより複雑な問題解決に優れたパフォーマンスを発揮するのが特徴です。

今までのAIは、学習データの「量」で高い精度の答えを出していました。
しかし、o1は推論の「計算時間」によって問題解決を目指せることを示しています。

Strawberry

「o1」は、発表前は「Q*」「Strawberry」などのコードネームで呼ばれていました2

1-1. Chain of Thought(思考の連鎖)

推論」とは、段階を踏んで考えることです。

o1モデルの核は、「Chain of Thought(思考の連鎖)」という仕組み。
これは、問題を解く過程で中間的な推論ステップを生成するものです。

問題を解く過程を細かく記録しながら答えを出します。
段階を踏んで考えて、より正確な答えを出せるようになりました。

o1は、自身の間違いを認識し、修正することを学習します。

扱いにくい手順を、よりシンプルな手順に分解することを学習します。
現在のアプローチが上手くいかないときに、別のアプローチを試すことを学習します

Chain of Thought(思考の連鎖)

例えば、難しい数学の問題を解くとき、私たちは一気に答えを出すのではなく、少しずつ計算をしていきますよね。

o1は既存のChain of Thought技術を改良し、より効果的に活用しています

Chain of Thought(思考の連鎖)

これまでもプロンプトの工夫で「思考方法」を模倣させることはできたよね。
CoTでは思考プロセスをバックグラウンドで生成できるのがポイントなのかな。

2. 推論によるスケーリングの意義

「推論」というアプローチの良いところは、知識だけに頼らないこと。
これは、生成AIの進歩に大きな変化をもたらす可能性を秘めています。

というのも、思考の連鎖を長くすることで、モデルの問題解決能力が大幅に向上することが示されたからです。

精度向上のアプローチ
  • 従来のアプローチ
    • モデルサイズの拡大
    • 学習データの質・量
    • 計算リソースの拡大
  • 推論時間のスケーリング

これまでの大規模言語モデル(LLM)の進歩の大部分は言語主導でした。

より多様なデータを元に、より強力なGPUで訓練をし、モデルのパラメータ数を増やすことで性能向上を図ってきました。

推論によるスケーリングの意義

例えば、GPT-3からGPT-4へと進化する過程では、パラメータ数を大幅に増加させています。

しかし、単純な質問に答えたり、文章を書いたりするのは得意でしたが、複雑な問題を解くのは苦手でした。
事前学習のために膨大な計算リソースを用意することが徐々に難しくなり、それが「限界」として見えてきていたからです。

2-1. 推論時間と推論トークン

一方、o1の推論では、事前学習だけでなく、回答生成時にもマシンパワーを使います。

従来のアプローチでは、学習済みのモデルの推論時間はほぼ一定でした。
一方、o1モデルは必要に応じて推論時間を延長することができます。

つまり、問題を解く際の「思考時間」を延ばすことで性能を向上させるのです。
これは「推論スケーリング」と呼ばれる新しい方法です。

この利点は、モデルサイズを変えずに性能を向上できる点です。

ただし、推論時間が長くなるため、即時性を求められるタスクには適さない可能性があります。
また、複雑な思考プロセスには、OpenAI o1は「推論トークン」を消費します。

推論時間と推論トークン

つまり、精度を上げるために、トークンコストや処理時間は増加しています。

推論時間と推論トークン

o1モデルは従来の「モデルの大きさ」というスケーリングに加えて、「思考の時間」という新たなスケーリングの軸を導入したと言えます。

3. 計算量と現実時間

もちろん、o1にも課題はあります。

理論的には、思考の連鎖を「十分に」長くすれば、複雑な問題でも解決できるはずですが、現実的はそう甘くはありません。

3-1. ハルシネーションの連鎖・蓄積

どのAIモデルにも、誤った情報の生成する「ハルシネーション」の可能性があります。
これは、思考の連鎖が長くなるほど、誤りが蓄積されるリスクが高まる可能性があります。

ハルシネーションの連鎖・蓄積

途中で間違った推論をしてしまうと、最終的な答えも間違ってしまう可能性があるのです。

3-2. 非決定性の問題

また、一部の問題では、計算時間が予測不可能になる場合があります。

組み合わせが複雑化すると、必要な計算量は急激に増加します。
そのため、推論が終わらない可能性があるからです。

非決定性の問題

これは、実時間での応答を要求されるシステムでは大きな課題となります。

3-3. AIの回答の「発散」問題

これまでの大規模言語モデル(LLM)は、自由に会話を続けさせると話題がどんどん広がっていく傾向がありました。

話題は広がる一方でまとまらないのは、まるで「エントロピーの増大」のような、LLMの本質的な特徴なのかもしれません。

しかし、この考えは覆る可能性もあります。

「思考の連鎖」では、推論の各段階に報酬関数を設定し、強化学習を行うことで、LLMが一つの答えにたどり着けるようになったというのです。

もちろん、この方法にも課題があります。
数学の問題のように正解が明確な場合は強化学習が可能です。
しかし、現実世界の問題の多くは、決まった答えがないものの方が多いです(オープンエンド)。
そのため、強化学習を適用するのが難しいという問題があります。

3-4. 有限の時間を生きる人間の知恵

人間には思考時間(=計算量)を減らすための「知恵」があります。

  • 多くの場合、厳密解ではなく近似解で満足します。
  • 過去の経験から、どのような問題が現実的な時間で解けるかについての直感を持っています。
  • 全ての問題を解こうとするのではなく、社会や組織が求める問題に焦点(有意義)を当てるようにします。

将来的には、AIの推論もさらに洗練されていくことが期待されます。

有限の時間を生きる人間の知恵

悩むことでよい回答になるけど、悩みすぎないこと大事なんだね。

思考を切り上げることも「賢さ」なんだね。

こちらもどうぞ。
「ドリフト現象」とは?(漂流するAI)
「ドリフト現象」とは?(漂流するAI)
AI(人工知能)は、学習量が多くなればどんどん賢くなると思われています。 しかし、実際には学習するほど「おかしな回答」をする「ドリフト現象」があります。 AIの仕組みはとても複雑です。そのため、AIの一部を良くしようとすると、別の部分の性能が下がってしまうことがあります。 学習するほど賢くなる、という単純なものじゃないんだね。 「ドリフト」って何? 「ドリフト」とは、利用しているうちに AI の回答精度が下がってしまう現象です。 例えば、こんな感じです: 以前はきちんと答えら...

生成AIだけでは「創れない」問題
生成AIだけでは「創れない」問題
生成AIが生み出す大量のコンテンツは、「創作」としての品質を伴わないものも多いです。 そのため、まだまだ指示を出す側である人間の経験や能力も重要で、AIを活用するには役割を分担するのがコツ。 あるいは、既存の表現形式から脱却した、「AIに最適化された新しい創作表現」に可能性があるのかもしれません。 生成AIを使った「創作」と「手直し」 現時点では、生成AIを使ってコンテンツを生み出す「創作」には大きな「課題」があります。高速・大量に作品を生み出せても、品質が低いものが多いこと...

Claude 3 Opusに「振り飛車」を聞いてみた(事前学習が弱い分野の具体例)
Claude 3 Opusに「振り飛車」を聞いてみた(事前学習が弱い分野の具体例)
Claude 3 Opusは、自然な文章を生成するのが特徴です。しかし、事前学習だけによる回答には、「知ったかぶり」も含まれるので注意が必要です。 そのうち改善されると思いますが、どこまでいっても「信頼性」の問題はあります。 生成AIとの対話では、情報源ではなく情報加工に使う、ということを意識するとよいです。 まんべんなく賢いわけではないんだね。 自分が知らない分野の話だと、ころっと「だまされてしまう」かも。 環境:2024年4月時点、Claude 3 Opus Claude...

生成AIは「正解のない問題」を聞く道具(検索との違い)
生成AIは「正解のない問題」を聞く道具(検索との違い)
代表的な生成AIとしては、ChatGPT、Copilot、Geminiなどがあります。 すごく当たり前ですが、生成AIは「生成」が必要な作業に役立ちます。 生成AIを「調べもの」に使うと、「遅くて」「的外れ」な回答が多いと感じるかもしれません。しかし、対話を伝え続けると「文脈」が共有され、徐々に意図に沿った回答が得られるようになります。 生成AIは、「正解のない問題」が得意です。反対に「正解がある問題」を調べるには従来の検索エンジンの方が速い面も。 「生成AI」というと、「な...

(参考)

(補足)

  1. 「米新興企業オープンAIが12日に新たな人工知能(AI)「o1(オーワン)」を発表したことで、人間のように広範な知的活動を遂行できる汎用人工知能(AGI)への道筋が見えてきた。」 – OpenAI「思考の連鎖」が導く汎用AIへの道 編集委員 吉川和輝 – 日本経済新聞
  2. オープンAIが先週リリースした新たなモデル「o1」(以前は「ストロベリー(Strawberry)」というコードネームで呼ばれており、その前はQ*だった)は、この種の目的でGPT-4oを圧倒するものだ。 – MIT Tech Review: GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由
QRコードを読み込むと、関連記事を確認できます。

推論によるスケーリング(OpenAI o1のChain of Thought)
【スポンサーリンク】
タイトルとURLをコピーしました