学習データ

推論によるスケーリング(OpenAI o1のChain of Thought) AIの話題

推論によるスケーリング(OpenAI o1のChain of Thought)

OpenAIが発表した新しい人工知能「o1(オーワン)」は、「Chain of Thought」という推論の仕組みを使って複雑な問題を解決します。 問題を小さな部分に分けて段階的に解決することで、より正確な答えを導き出すことができます。 モデルサイズではなく推論時間を延長することで性能を向上させるアプローチの登場で、生成AIの世界は大きく変化する可能性があります。 従来の生成AIとは違う「推論」の仕組み 2024年9月12日、OpenAIは新しい人工知能「o1(オーワン)」を...
ベイジアンフィルタとは?(ベイズの定理とスパム判定) とりあえずのメモ

ベイジアンフィルタとは?(ベイズの定理とスパム判定)

「ベイジアンフィルタ」は、条件付き確率の考え方(ベイズの定理)をもとに迷惑メールである確率を計算する、古典的な手法です。 過去のスパムメールと非スパムメールから単語の出現頻度の違いを学習して、新しく受信メール内の単語の組み合わせからスパム確率を計算するのが特徴です。 ただし、判断材料が単語の出現頻度に依存しているため、正しいメールに似せた文章だとスパムと見分けられないことがあります。 たとえば、「高額なプレゼントに当選しました!」などのような、独特のスパムメールには有効です。...
迷惑メールフィルターはいかにして迷惑メールを判定し、なぜブロックしきれないのか インターネット小話

迷惑メールフィルターはいかにして迷惑メールを判定し、なぜブロックしきれないのか

迷惑メールフィルターは、様々な手法を組み合わせて迷惑メールを判定します。しかし、どうしても見逃しや隔離しすぎの判定ミスがあります。 これは、プログラムは個人の価値判断を完璧には代行できないことが本質的な原因です。 AIに「丸投げ」したらいいのに。 自動車の自動運転のように、人間を「補助」するのが主な役割なんだね。 YouTube動画でも話しています。 代表的な迷惑メールの判定方法と限界 たくさん届く迷惑メールをすべて目を通して判断するのは大変。 そこで、メールシステムには迷惑...
「憲法AI」とは?(AIフィードバックからの強化学習) AIの話題

「憲法AI」とは?(AIフィードバックからの強化学習)

「憲法AI」は、与えられた原則を元にAIの自己改善によって倫理的な判断の精度を上げる手法です。 うまくすれば人間の仕事は、AIの判断基準となるルール規範(「憲法」)を明文化するだけで済むわけです。
「ハルシネーション」とは? AIの話題

「ハルシネーション」とは?

生成AIの「ハルシネーション」というのは、AIが学習したデータの範囲を超えて、でたらめな答えを出力してしまう現象です。人工知能が幻覚を見ているかのように回答することから名付けられました。
生成AIはデータとコードが一体化しているようなものでは?(コードを注入されるリスク) AIの話題

生成AIはデータとコードが一体化しているようなものでは?(コードを注入されるリスク)

生成AIシステムは一般的なプログラム以上に深刻な脆弱性を抱えているように思えます。それは悪意のあるユーザーによって、システムの動作を不正に操られる可能性。 AIの動作を決める学習データが容易にインプットできるためです。 最近、『情報セキュリティの敗北史: 脆弱性はどこから来たのか』という本を読んでいます。 コンピュータの歴史を振り返ると、生成AIの「安全機構」の弱さが心配になりました。 そもそも自然言語って、入力チェックが可能なのかな? 原理的に。 ノイマン型コンピュータの脆...
ChatGPTとオープンソースのLlama 2の「格差」(生成AIの学習データ) AIの話題

ChatGPTとオープンソースのLlama 2の「格差」(生成AIの学習データ)

オープンソースのLlama 2と商用モデルのChatGPT の違いに、学習データの質と範囲にあります。 この学習データの質・量が、特に専門分野での生成AIの回答精度に影響してくるようです。 腎臓学の多肢選択式テストで性能を比較した研究によると、Llama 2 に比べて ChatGPTがかなりよい成績を示しました。 これは、GPT-4が、非公開の専門的で高品質なデータにアクセスできるのに対し、オープンソースのモデルは公開データに依存しているからだと考えられます。 高度なAI開発...