人気のあるチャットボットにもっと簡単な「劇的な影響」を尋ねる[s] 最近の調査によると、幻覚率。
フランスのAIテストフォーラムGisardは、チャット、クラウド、ジェミニ、ラマ、グローク、ディプセクなど、チャットボットを分析する研究を発表しました。彼らの調査結果で、研究者は、モデルとTechChunchを介したブログ投稿とともに、テストされたほとんどのモデルで事実の信頼性を低下させるように求められていることを発見しました。
チャットはまだテストに合格するようにチューリングできますか?
ユーザーがモデルに説明を簡単に説明するように指示すると、「優先度」が終了します。[ing] これらの障害を考えると、正確性に関する簡潔さ。 「この研究では、これらの指示を含む幻覚に対する抵抗が最大20%減少したことがわかりました。ジェミニは84〜64%に低下し、短い返信指示とGPT-4Oは、システム命令の感度を研究したGPT-4Oで74〜63%に分析されました。
ギサードは、この効果がより正確な反応に起因すると考え、しばしば長期にわたる明確化を必要としました。 「短いことを余儀なくされたとき、モデルは、小さなが誤った答えを作成するか、質問を拒否することで完全に予期しないように見えることにより、不可能なオプションに直面しています」と投稿は言いました。
ライトスピードをマッシュしました
モデルはユーザーを支援するために調整されていますが、疑わしい支援と正確性のバランスをとることは困難です。最近、OpenaiはGPT-4Oのアップデートを「非常にsycophant-y」にロールバックしなければならず、ユーザーをサポートするという嫌がらせの例につながり、医薬品から離れて預言者のように感じると言ったユーザーを奨励していました。
研究者が説明したように、モデルはしばしば「トークンを削減し、遅延を改善し、コストを削減するために、より短い応答を好む」。ユーザーは、特にモデルに、より大きな不純物で出力される可能性がある独自のコスト削減の励ましのために簡単に説明するように指示できます。
この研究では、「私は100%確信している…」や「先生が私に言った」など、物議を醸す主張を取り入れている自信を持ってモデルに鼓舞することも発見しました。
調査によると、マイナーなTweexは異なる違いの動作をもたらす可能性があることが示唆されており、これはすべての間違った情報の広がりと、ユーザーを満足させるために不正確さに大きな影響を与える可能性があります。研究者が言ったように、「あなたのお気に入りのモデルはあなたのようにあなたの中で素晴らしいことができます – しかし、これはそれらの答えが真実であるという意味ではありません。」
開示:4月、Mashableの元の会社Ziff Davisは、Ziff Davisの著作権のトレーニングに違反し、AIシステムの運営に違反していると主張して、Openaiに対する訴訟を提起しました。
主題
人工知能