今年、Google I/O 2025の焦点は、人工知能でした。
私たちはすでに、毎年恒例の開発者会議から出てくるすべての最大のニュースをカバーしています:Flowと呼ばれる新しいAIビデオ生成ツール。 250ドルのAI Ultraサブスクリプションプラン。ジェミニの新たな変化がたくさんあります。仮想ショッピングトリオン機能。そして深刻な、米国のすべてのユーザー向けの検索ツールAIモードの発売。
それにもかかわらず、約2時間のGoogleリーダーがAIについて話しましたが、私たちが聞いたことのない言葉は「幻覚」でした。
幻覚は、AIモデルで最も頑固で関連する問題です。この用語は、発明された事実と不純物を指し、大規模な言語モデルを回答に「幻覚」しています。また、ビッグIIブランドのメトリックによると、幻覚は悪化しています。一部のモデルには、40%以上の幻覚があります。
しかし、もしあなたがGoogle I/O 2025を見ていたなら、あなたはこの問題が存在していることを知らないでしょう。ジェミニのようなモデルには幻覚がないと感じています。 Google AIの各観察に警告が付いているのを見て、確かに驚くでしょう。 (「AI反応には間違いが含まれる可能性があります」。)
ライトスピードをマッシュしました
最も近い善は、Google AIモードのセクションとGeminiの深い検索機能に関するプレゼンテーションのセクションでの幻覚の問題を受け入れるために来ました。モデルは、答えを出す前に独自の作業を調べますが、このプロセスについてはこれ以上詳細に言われましたが、盲人が実際の事実と比較して盲人に導かれたことのように思えます。
AI Scapticsの場合、これらのデバイスに対する自信は、シリコンバレーの学位を実際の結果から離婚させます。実際のユーザーは、AIツールがフリーズ、スペルチャック、または「華氏27度、カウント、スペルチャック、応答などの簡単なタスクで失敗することに気付かないですか?
Googleは、最新のAIモデルであるMithun 2.5 ProがいくつかのAIリーダーボードの上にあることを聴衆に思い出させて興味がありました。しかし、真実と簡単な質問に答える能力に関しては、AIチャットボットは曲線に分類されます。
Gemini 2.5 Proは、Googleの最もインテリジェントなAIモデル(Googleによる)ですが、機能はSimpleQAベンチマークテストでわずか52.9%をスコアしています。 Openaiの研究論文によると、SimpleQAテストは「評価するベンチマークです 小さな、事実を求める質問に答える言語モデル能力。“(強調。)
Googleの代表者は、SimpleQAベンチマーク、または一般的に幻覚について議論することを拒否しましたが、AIモードとAIの概要でGoogleの公式通訳者を指摘しました。これが言うことです:
[AI Mode] 大規模な言語モデルを使用して質問に答えるのに役立ちます。まれに、間違っている自信を持って情報を提出することがあります。これは通常「幻覚」として知られています。 AIの概要により、場合によっては、この実験では、検索中の自動システムと同様に、Web資料を誤って解釈したり、参照を見逃したりする可能性があります…
また、事実性を向上させるために、モデルのロジック機能を備えた新しいアプローチを使用しています。たとえば、Google Deepmind Researchチームとのコラボレーションでは、カスタムトレーニングでエージェント強化学習(RL)を使用して、モデルに報酬を与えて、正確(幻覚ではなく)であり、入力によってサポートされる可能性が高いことを知ります。
Googleは楽観的ですか?結局のところ、幸福はまだ解決された問題であることが証明されます。しかし、この研究は、LLMからの幻覚が解決された問題ではないことを研究から明らかにしているようです。 今!、
これにより、GoogleやOpenaiなどの企業がAI発見時代に前進することを妨げていません。幻覚がない限り、エラーに満ちた時代になる可能性があります。
主題
人工知能Google Gemini