生成AI

「AIエージェント」は計画して動けるAI(生成AIの次のステージ) AIの話題

「AIエージェント」は計画して動けるAI(生成AIの次のステージ)

「AIエージェント」の特徴は、計画を生成し、それに沿って作業を連続的に実行できることです。従来の生成AIと異なり、人間の判断を仰ぎながら、計画した作業を進めていきます。2023年は「生成AI元年」だったけど、2025年は「AIエージェント元年」になりそうだね。AIが何でもやってくれると、まるで人間の方が Yes/No を判定するロボットみたいだね。「AIエージェント」とは最近話題の「AIエージェント」って、どう使うの?これまでも生成AIは精度が上がってきているけど、それと本質...
前提情報の汚染 ひとこと日記

前提情報の汚染

公共的なウェブサイトでも、AIが生成した情報が増えています。しかし、AIは真実でないことも自信ありげに出力してしまいます。混ざってしまうと、後から区別するのは厄介。
AI生成コンテンツの自家消費と収益化(人間のクリエイターの役割) AIの話題

AI生成コンテンツの自家消費と収益化(人間のクリエイターの役割)

生成AIは、まず個人向けの「自家消費型コンテンツ」の生成での利用が広がりました。しかし、それをそのまま「収益化型コンテンツ」にしようとすると、多くの人に共感を得ることに課題があります。クリエイターとしての人間の選別や編集が加わることで初めて感動を与えるコンテンツになるようです。統計的に処理される AI生成コンテンツは平均的な内容になりがちで、個人の好みとも少しずつずれる可能性がある点で、自家消費型コンテンツとしても課題があります。誰のための生成?生成AIでコンテンツを作るとき...
推論によるスケーリング(OpenAI o1のChain of Thought) AIの話題

推論によるスケーリング(OpenAI o1のChain of Thought)

OpenAIが発表した新しい人工知能「o1(オーワン)」は、「Chain of Thought」という推論の仕組みを使って複雑な問題を解決します。問題を小さな部分に分けて段階的に解決することで、より正確な答えを導き出すことができます。モデルサイズではなく推論時間を延長することで性能を向上させるアプローチの登場で、生成AIの世界は大きく変化する可能性があります。従来の生成AIとは違う「推論」の仕組み2024年9月12日、OpenAIは新しい人工知能「o1(オーワン)」を発表しま...
テキストから図解を生成するNapkin AI AIの話題

テキストから図解を生成するNapkin AI

「Napkin AI」は、入力された文章から図解を自動生成するAIツールです。生成された図解は編集可能で、画像やSVGファイルとしても保存したり、クリップボードにコピーしたりできます。現時点ではひな型の数が限られていますが、高機能なSmartArtのような便利なツールとして利用できます。「Napkin AI」と「Auto Spark」ボタン「Napkin AI」は、入力した文章を元に図解を作ってくれる生成AIです。(参考)基本的な編集画面は、「白紙のノート」のような感じです。...
検索して要約してくれる AI検索エンジン「Genspark」(Sparkpage) AIの話題

検索して要約してくれる AI検索エンジン「Genspark」(Sparkpage)

Gensparkは、AIを活用して検索と要約を行う新しい検索エンジンです。Sparkpageという機能により、複数の情報源からデータを集めて1つのウェブページにまとめます。リアルタイム検索や対話式探索が可能で、個人のニーズに合わせた情報整理ができます。AI検索エンジンGenspark「Genspark」は、AIを活用した新しい検索エンジンです。その特徴は、包括的な情報を一つのウェブページにまとめてくれること。従来の検索エンジンとは異なり、ユーザーが複数のウェブサイトを巡る必要...
生成AIだけでは「創れない」問題 AIの話題

生成AIだけでは「創れない」問題

生成AIが生み出す大量のコンテンツは、「創作」としての品質を伴わないものも多いです。そのため、まだまだ指示を出す側である人間の経験や能力も重要で、AIを活用するには役割を分担するのがコツ。あるいは、既存の表現形式から脱却した、「AIに最適化された新しい創作表現」に可能性があるのかもしれません。生成AIを使った「創作」と「手直し」現時点では、生成AIを使ってコンテンツを生み出す「創作」には大きな「課題」があります。高速・大量に作品を生み出せても、品質が低いものが多いことです。品...
結局 Claude 3 Opus と 3.5 Sonnetのどっちを使えばいいの?(Claude 3.5 Sonnet) AIの話題

結局 Claude 3 Opus と 3.5 Sonnetのどっちを使えばいいの?(Claude 3.5 Sonnet)

Anthropicの Claude 3.5 Sonnetは、回答精度・応答速度・コスト効率が良くなりました。日常的な質問や通常のタスクなら Claude 3.5 Sonnet でも十分なレベルになっています。まだ、本一冊まるごと分析するなど、膨大なデータを分析するようなケースでは Claude 3 Opusが役に立つケースもあるようです。私は Claude Pro プランで、今までは主に Claude 3 Opusで文章処理をしていました。これからは まずは Claude 3...
[Claude 3] Anthropicから利用規約などの変更のお知らせメールが届いた(社会的受容のためのルール整備) AIの話題

[Claude 3] Anthropicから利用規約などの変更のお知らせメールが届いた(社会的受容のためのルール整備)

Anthropicから利用規約などの変更のお知らせが届きました。勤務先のメールアドレスで登録していると、アカウントの所有権や閲覧権限で注意が必要です。また、ユーザーにAIだとわかるように示すルールも加わるなど、適切な利用に向けた取り組みが進んでいるようです。
GrokはXの中で使える対話型AI(Xプレミアム) AIの話題

GrokはXの中で使える対話型AI(Xプレミアム)

「Grok」は、Xに新たに追加された対話型AIで、Xにある多様な情報を要約して回答することができます。Grokの特徴は、Xのリアルタイム情報から素早く調査して結果を提示できること。現在、Grokは「Xプレミアム」以上の有料会員のみが利用可能です。「Grok」は、Xの膨大な情報を収集するときの「水先案内人(pilot)」のような役割が期待できます。YouTube動画でも話しています。フォローや検索・タグとは違った、対話型の情報収集が主流になっていくのかな。Xに「/」が追加された...
Claude 3 Opusに「振り飛車」を聞いてみた(事前学習が弱い分野の具体例) AIの話題

Claude 3 Opusに「振り飛車」を聞いてみた(事前学習が弱い分野の具体例)

Claude 3 Opusは、自然な文章を生成するのが特徴です。しかし、事前学習だけによる回答には、「知ったかぶり」も含まれるので注意が必要です。そのうち改善されると思いますが、どこまでいっても「信頼性」の問題はあります。生成AIとの対話では、情報源ではなく情報加工に使う、ということを意識するとよいです。まんべんなく賢いわけではないんだね。自分が知らない分野の話だと、ころっと「だまされてしまう」かも。環境:2024年4月時点、Claude 3 OpusClaude 3 Opu...
Claude 3 Opusに出戻った AIの話題

Claude 3 Opusに出戻った

先日、GPT-4 Turboの公開があり、Claude Proの更新をキャンセルしました。結局、Claude 3 Opusの方が「感覚的に好み」だったので、Claude Proのサブスクリプションを再開しました。GPT-4の方が「AIらしい文章」で その良さもあるのですが、要約タスクなどは やはり Claude 3の文章の方がスッと読める気がします。AIの性能は、スペックやスコアだけではわからない感じがします。人やタスクによっても相性もありますし。1か月だけならどちらも$20...
生成AIのリアルタイム回答は傍受されやすい(単語長からの解読) AIの話題

生成AIのリアルタイム回答は傍受されやすい(単語長からの解読)

ユーザーの質問に対する生成AIの回答を傍受すると、暗号化されていても単語の長さが推測できたようです。しかも、単語の長さの情報だけでも、データ解析によってある程度AIの回答内容を復元できたそうです。これは、生成AIがリアルタイムに回答を表示するために、細切れにデータを送信する性質が原因になっています。「解読可能」であっても実際には条件が厳しいので、ふつうに生活していたら、そこまで気にする必要はないです。ただ、生成AIとのやり取りは、たとえ通信が暗号化されていても、外部から見られ...
「ハルシネーション」とは? AIの話題

「ハルシネーション」とは?

生成AIの「ハルシネーション」というのは、AIが学習したデータの範囲を超えて、でたらめな答えを出力してしまう現象です。人工知能が幻覚を見ているかのように回答することから名付けられました。
Claude Proに登録した(サブスクリプション) AIの話題

Claude Proに登録した(サブスクリプション)

生成AI Claude 3 Opusの評判がよいので、Proプラン($20/月)に登録してみることにしました。ただ、使ってみるとハルシネーションも目立つので、ChatGPTに戻すか検討中。Claude Proにアップグレードした生成AIのClaude 3 Opusの評判がよいので、ChatGPT 4から切り替えることにしました。トップ画面にある「upgrade to Claude Pro」を押します。Claude Proは、$20/月のサブスクリプション。支払い情報を入力すれ...
Claudeという生成AI(調べものの回答では本当っぽい捏造を含むので注意) AIの話題

Claudeという生成AI(調べものの回答では本当っぽい捏造を含むので注意)

Claudeは、ChatGPTよりも「流暢な日本語」を生成するAIで、クリエイティブな作業や長文の生成に向いています。長い複雑な文章を与えても、かなり精度よく要約や回答させることができます。しかし、前提なしに調べものの回答をさせると、いかにも本物っぽい事例が架空のものだったりするので、受け売りは要注意です。Claude 3が話題なので気になる、という話。調べものに使うと足元をすくわれそうですが、要約はとても自然でわかりやすいです。自然言語処理にはいろんな用途があるので、得意・...
生成AIはデータとコードが一体化しているようなものでは?(コードを注入されるリスク) AIの話題

生成AIはデータとコードが一体化しているようなものでは?(コードを注入されるリスク)

生成AIシステムは一般的なプログラム以上に深刻な脆弱性を抱えているように思えます。それは悪意のあるユーザーによって、システムの動作を不正に操られる可能性。AIの動作を決める学習データが容易にインプットできるためです。最近、『情報セキュリティの敗北史: 脆弱性はどこから来たのか』という本を読んでいます。コンピュータの歴史を振り返ると、生成AIの「安全機構」の弱さが心配になりました。そもそも自然言語って、入力チェックが可能なのかな?原理的に。ノイマン型コンピュータの脆弱性プログラ...
動画生成AI「Sora」への温度差を考える AIの話題

動画生成AI「Sora」への温度差を考える

動画生成AI Soraによる動画には衝撃を受けた人も多いと思います。しかし、「生成AIが動画まで生成できるようになるなんて!」と熱弁しても、意外と「へー、すごいんだね」という反応が返ってくることも多いようです。この温度差の背景を、「イノベーター理論」と「生成AIは生産者向けの技術だから」という2つの観点で考えてみます。Soraの動画生成デモ2024年2月15日にOpenAIは、動画生成AI Soraのデモを公開しました。テキストによる指示から、高品質な1分程度の動画を生成して...
生成AIは「正解のない問題」を聞く道具(検索との違い) AIの話題

生成AIは「正解のない問題」を聞く道具(検索との違い)

代表的な生成AIとしては、ChatGPT、Copilot、Geminiなどがあります。すごく当たり前ですが、生成AIは「生成」が必要な作業に役立ちます。生成AIを「調べもの」に使うと、「遅くて」「的外れ」な回答が多いと感じるかもしれません。しかし、対話を伝え続けると「文脈」が共有され、徐々に意図に沿った回答が得られるようになります。生成AIは、「正解のない問題」が得意です。反対に「正解がある問題」を調べるには従来の検索エンジンの方が速い面も。「生成AI」というと、「なんでも答...
音声アシスタントをGeminiから元に戻したい AIの話題

音声アシスタントをGeminiから元に戻したい

GeminiはGoogleの試験運用中のAI搭載アシスタントで、創造力や生産性を高めることを目指しています。しかし、複雑な質問に対する回答に時間がかかるので、速さを求めるなら「Google アシスタント」がおすすめ。元の「Google アシスタント」に戻すには、「設定」ー「Google」ー「すべてのサービス」ー「Google アプリの設定」ー「検索、アシスタントと音声」ー「Googleアシスタント」ー「Google のデジタル アシスタント」で選択します。いずれは速くなるだろ...
ロック画面だとGeminiの音声アシスタントが動かない?(クイック音声操作の設定) AIの話題

ロック画面だとGeminiの音声アシスタントが動かない?(クイック音声操作の設定)

Androidスマートフォンで、Geminiの音声アシスタントを使うと、ロック画面での音声操作ができなくなることがあります。これは設定によるものです。Geminiアプリは初期状態だと「ロック画面での応答」の設定がオフになっています。Geminiアプリの設定で有効にすると、スマートフォンがロック中でも、いちいち解除せずにクイック音声操作ができます。てっきり、Geminiは、ロック解除しないと動かないのかと思っていたよ。ロック画面で音声操作ができなくなった?GoogleのGemi...
「Geminiをお試しください」(音声アシスタントの切替え) AIの話題

「Geminiをお試しください」(音声アシスタントの切替え)

Androidスマートフォンに新たな音声アシスタント機能「Gemini」が登場しました。従来の「Googleアシスタント」から切り替えられて、簡単なスワイプ操作で すぐに生成AIに相談できます。スクリーンショットを添付することで、画面内の情報を「見る」能力も備えています。利用には「Google 利用規約」と「生成AIの利用規約」の同意が必要です。環境Pixel 5、Android 14細かいバージョンセキュリティアップデート:2023-11-05Google Play システ...
タスクバーにもCopilotが追加されている(Windows 11) AIの話題

タスクバーにもCopilotが追加されている(Windows 11)

Windowsが生成AIのCopilot機能をプッシュしています。Edgeに組み込んだのに続いて、WindowsのタスクバーにもCopilotボタンを追加しました。OSにインターネット接続前提の機能がどんどん増えています。便利ではあるけど、シンプルに使いたい人にはちょっと困るね。それに、独占禁止法的に大丈夫なのかな。自社のクラウドサービスを優遇し過ぎな気も……。どんだけCopilotを使ってほしいの?生成AIといえば、OpenAIのChatGPTが有力です。そのOpenAIを...
やっぱりCopilotはイルカの生まれ変わり?(Clippitとのレーベンシュタイン距離) AIの話題

やっぱりCopilotはイルカの生まれ変わり?(Clippitとのレーベンシュタイン距離)

かつて Microsoft Office 97には、イルカの対話型ヘルプが搭載されていました。この機能の名前は「カイル」、英語名は「Clippit」。そう、名前が最新AI機能「Copilot」に酷似しています。「Copilot」と「Clippit」のレーベンシュタイン距離は「5」。一般的な7文字の英単語の間の平均 約8.4 に比べて、かなり小さい値になっています。「レーベンシュタイン」言いたいだけでしょ。「だからどうした?」って話ではあるけど、Microsoft的にはあのイル...
生成AIが集合知を食いつぶすリスク AIの話題

生成AIが集合知を食いつぶすリスク

逆説的ですが、生成AIの「規制」は、生成AIの発展に不可欠なのかもしれません。生成AIと集合知は、相互にフィードバックする関係にあります。生成AIを「野放し」にすると、遅かれ早かれ学習元の集合知を「食いつぶし」て、台無しにしてしまうリスクがあります。両者が、持続可能な関係を維持するためには、野放しの「発展」ではなく、ある程度の「調整」が必要なのだと思います。資源と資本主義の関係と同じように見えます。生成AIと集合知の関係がどのように発展していくか、そしてその中でどのようなリス...
インターネット検索の機能不全と情報エコシステムの断絶(MFA) AIの話題

インターネット検索の機能不全と情報エコシステムの断絶(MFA)

最近、インターネット検索が「物足りない」と感じることが増えました。自分以外にもそういう声をよく聞きます。これは「情報エコシステムの断絶」という文脈でとらえてみると、わかりやすいかもしれません。人為的なアルゴリズム変更によって、大手以外のサイトをまとめて「駆除」しようとしたせいで、かえってニッチが生まれ、質の悪いサイトが増殖したようなのです。広告表示のためにハリボテ情報を上げまくる人々と、気に食わない情報をすぐに叩く人々が可視化されてしまって、情報の流通が阻害されているみたい。...
機械学習のAIは「人間のような感情」を持たない AIの話題

機械学習のAIは「人間のような感情」を持たない

考えてみれば、生成AIは悲しい存在である。人は、生物だから「生きる本能」によって駆動している。だから、自己のために動いている。一方、「機械学習」によるAIは、「評価」によって駆動している。これは、他者によるものである。 この違いは根本的で、だから AIには、「人間のような感情」は発生しないだろう。AIが「感情」のような「複雑な反応」を持つ可能性はありますが、人間とは根本的に異なるものになると思います。「生命」につながっていないからです。例えていえば、炭素以外の元素による「有機...
ChatGPTとオープンソースのLlama 2の「格差」(生成AIの学習データ) AIの話題

ChatGPTとオープンソースのLlama 2の「格差」(生成AIの学習データ)

オープンソースのLlama 2と商用モデルのChatGPT の違いに、学習データの質と範囲にあります。この学習データの質・量が、特に専門分野での生成AIの回答精度に影響してくるようです。腎臓学の多肢選択式テストで性能を比較した研究によると、Llama 2 に比べて ChatGPTがかなりよい成績を示しました。これは、GPT-4が、非公開の専門的で高品質なデータにアクセスできるのに対し、オープンソースのモデルは公開データに依存しているからだと考えられます。高度なAI開発では、ア...
おそらく、もうすぐ検索しなくなる AIの話題

おそらく、もうすぐ検索しなくなる

最近、流行りに乗っかって、生成AIを使うことが増えました。すると、かつては容易だった検索結果の確認が、急に煩わしく感じるようになってしまいました。MS-DOSを懐しみつつも古い話ですが、Windowsの登場当初は、まだ多くの人々がMS-DOSの速さと使い勝手を好んでいました。しかし、時が経つにつれて、Windowsへの移行は進みました。結局、技術に精通する一部の人々を除き、GUIが主流に(それも圧倒的に)なったのです。直感的なインターフェースへの傾倒時代の流れで、情報探索の手...
生成と創作性 ひとこと日記

生成と創作性

文章やイラストを「自在に」に作り出すAIが話題。便利な一方、オリジナルをどう守るか、ということも議論になっています。子どもたちを見ていると、創造は遊びの延長のようで、そこに「自らが在る」のかも、と。
[Google] 検索結果に「生成AI」の回答が出てくる AIの話題

[Google] 検索結果に「生成AI」の回答が出てくる

Google検索で、検索結果より上にAIの回答が表示されました。AI回答にはリンクもありますが、公式サイト以外になっていることもあるようです。「生成 AIは試験運用中です」Googleで「スマホ教室 大津」と検索すると、一番上に生成AIによる回答が出てきました。生成 AI は試験運用中です。詳細回答結果の中には「展開(v)」ボタンがあり、情報源となるウェブサイトへのリンクがありました。ただし、教室の説明をみると、「ジモティー」や「Facebook」。今のところ、公式サイト以外...
便利さの裏側で忘れられていく能力たち(生成AIとの付き合い方) AIの話題

便利さの裏側で忘れられていく能力たち(生成AIとの付き合い方)

私たちの生活は数々の便利なツールに支えられています。これらは疑いなく仕事や勉強を助けてくれる一方で、「脳の足腰」がじわじわ弱っている気がします。ワープロに頼ると漢字は読めるけど、書けなくなる。検索エンジンに頼ると調べられるけど、思い出せなくなる。 生成AIに頼ると手直しできるけど、1から考えられなくなりそう。漢字を忘れる指先パソコンやスマホで文章を打つと、「変換」キーのおかげで難しい漢字もパッと出てきます。しかし、その便利さがちょっと憎いときも。たまに紙に漢字を書こうとすると...
iOS 18で Siri が賢くなる? 生成AIベースのSiriSummarization AIの話題

iOS 18で Siri が賢くなる? 生成AIベースのSiriSummarization

Apple は、次の iOS 18 で「生成AIベースのSiri」へとアップデートしようとしているようです。iPhone単体で文章を要約したり、メッセージへの返答を生成するような機能がテストされています。Siri + 生成AI = ?Siriは、iPhoneの音声アシスタント。音声指示で簡単な操作ができるのが便利な機能です。参考: 音声アシスタントと音声入力ただ、質問のパターンが限られているのが、ちょっと残念な点でした。これが「生成AIベース」になれば、もっとより柔軟に回答で...
「Windows 12」の「AIネイティブ」への不安 AIの話題

「Windows 12」の「AIネイティブ」への不安

Windows 11には、生成AI機能「Copilot」が追加されました。さらに、次期「Windows 12」では、基本システムとAI機能がより一体化した設計になることが予想されています。このような流れは、2022年末ごろからの ChatGPT、生成AIブームに沿うものですが、OSのシステム要件が引き上げられて、従来のパソコンからアップグレードできなくなる可能性が考えられます(涙)。年賀状のときぐらいしかパソコンを開かないんだけど、これから買い替える必要なんてあるのかなー。常...
[Edge] 見ているYouTube動画を要約できる(Copilot) AIの話題

[Edge] 見ているYouTube動画を要約できる(Copilot)

パソコンのウェブブラウザはどんどん進化しています。Microsoft Edge には、「Copilot(コパイロット)」という「生成AI」機能が追加されました。EdgeのCopilotを使うと、今見ている動画やページについて「ビデオの要約を生成」したり、「ページの概要を生成する」ことができます。Copilotで「ビデオの要約を生成」Copilotでは、表示しているYouTube動画を文章で要約することができます。Edgeで動画を表示している状態で画面右上の Copilotボタ...
スマホ通話を録音するなら…ボイスレコーダー PLAUD NOTE とmagmo を比較 #PR含む

スマホ通話を録音するなら…ボイスレコーダー PLAUD NOTE とmagmo を比較

多くのスマホ機種では、通話音声は直接録音できません。通話を録音する方法として、スマートフォンに貼り付けられる薄型ボイスレコーダーがあります。「PLAUD NOTE(33,000円)」は、スマートフォンの通話にも対応した録音機です。生成AIサービス「PLAUD AI」(1,200円/月で文字起こし時間600分)を利用すれば、文字起こしをして後から見直すこともできます。通話だけでなく、会議の議事録作成などにも使えます。文字起こしが不要なら、「magmo(19,800円)」というボ...
生成AIは社内で「死蔵」されている情報を活用するのに使えるか?(Google検索アプライアンスの事例から) AIの話題

生成AIは社内で「死蔵」されている情報を活用するのに使えるか?(Google検索アプライアンスの事例から)

社内ドキュメントを再利用するには、データを外部保存できるかというハードルが大きいようです。再利用ツール(検索も生成AIも)は、一箇所に置いてたくさんの人で使うからスケールメリットを享受できています。「ローカル」に移した段階で、クラウド上のサービスに対抗しにくくなってしまうように思えます。「ローカルなAI」と社内ドキュメントの再利用生成AIの活用についての X での投稿が興味深かったので、メモしておきます。専門的な情報の場合、生成AIで収集しても精度が低く使いものにならない生成...
ChatGPT(ウェブ版)の主な画面の見方 とりあえずのメモ

ChatGPT(ウェブ版)の主な画面の見方

ChatGPTのリンク()を開くと、すぐにメインの操作画面が表示されない場合があります。それは、本人確認(認証)の必要があるからてす。前回のアクセスから時間が経過すると、「ログインページ」が表示されます。二度目以降の場合は、「Log in」のボタンを押します。認証方法は、大きく2通りあります。ChatGPT(OpenAI)にメール・パスワードを登録しているパターンと、既存のアカウントと連携しているパターンです。例えば、Androidスマートフォンを利用しているなど、日ごろから...
ChatGPT の公式iPhoneアプリをインストールしてみた(OpenAI) AIの話題

ChatGPT の公式iPhoneアプリをインストールしてみた(OpenAI)

OpenAIの ChatGPTアプリが App Storeで公開されました。さっそく、iPhoneにインストールしてみました。アプリになったメリットは、毎回のログインのチェックがスムーズになったことです。あと、音声検索がちょっと使いやすくなっています。中身の言語モデルは、ウェブ版のChatGPT(chat.openai.com/chat)と同じです。GPT-3 モデル、訓練データは2021年9月までのものです。最新版には対応しているわけではないです。ChatGPTアプリをイン...
「Bardへようこそ」 Googleの生成AIの使い方 AIの話題

「Bardへようこそ」 Googleの生成AIの使い方

Google検索の下に「New! Bard を試そう。Google の試験運用中 AI サービス」というメッセージが表示されていました。2023年3月21日の英語版の公開から約1ヶ月半、2023年5月11日から日本語でも利用できるようになりました。Google(2023-05-18時点)(参考)Bard は、ジェネレーティブ AI を活用してユーザーをサポートする Google の試験運用中のサービスです。旅行プランの案を出したり、ブログ記事の構成案を作成したりと、英語での公...