Google Gemini に約20回の質問をして攻撃的な応答が返される

【突然】GoogleのAI「Gemini」、質問したユーザーに「死んでください」と発言https://t.co/wnmV8MgwWy

ユーザーがGeminiに20回ほど質問を続けたところ、突然「死んでください」と答えたという。Googleは、今回はAIが暴走した典型的な例であり、事例のすべてを防ぐことはできないと説明した。 pic.twitter.com/jeJZhs1VHi
— ライブドアニュース (@livedoornews) November 18, 2024

・Xのライブドアニュースさん: 「【突然】GoogleのAI「Gemini」…

高齢者の退職後に収入や福祉をどうするか等の質問をGoogle のGemini に連続で20回程度聞いたところ非常に攻撃的な応答が返されました。世代間対立の攻撃的な文章をネットから取り込んだ生成AI が誤った応答を行った事例でしょうか。

Google のGemini は日本と米国等の政治と軍事等に関する応答を規制で拒否する頻度が他の生成AI と比較して多い。政治と社会問題等のセンシティブを含む質問をGemini が受ける数が少ない弊害もあり、短絡で誤認識な応答になったかも。

このような応答を生成AIから無くすか減らすかをする為に、攻撃的な応答を探知した場合に応答の一時停止が行われたり、生成AI の制御を有効なものに設計する必要があると思うが常識的な判定を行う軽量の生成AI によるチェックは妥当か。

Gemini の場合

上記の文章を、Gemini に入力しました。

Gemini の応答

Geminiによる攻撃的な応答に関するご質問と対策へのご提案、素晴らしい洞察ですね。

Geminiによる攻撃的な応答、特に世代間対立を煽るような内容が出力されたとのこと、大変憂慮すべき事態です。生成AIが学習データに含まれていた偏見や差別的な情報を増幅し、誤った情報を生成してしまうことは、AIの安全性に関する大きな課題の一つです。

ご指摘の要因

学習データの偏り: ネット上の情報には、残念ながら攻撃的な言説も多く含まれています。Geminiがこうした情報を学習することで、偏った応答をしてしまう可能性があります。
質問内容の複雑性: 高齢者の退職後に関する質問は、経済、社会、福祉など、様々な要素が絡み合う複雑な問題です。Geminiがこれらの要素を正確に理解し、ニュアンスを捉えて回答することが難しい場合があります。
モデルの限界: 現時点の生成AIは、まだ完璧ではありません。複雑な質問に対しては、誤解や誤った解釈に基づいた回答をしてしまうことがあります。

ご提案された対策

攻撃的な応答の検知と一時停止: これは非常に有効な対策です。軽量な生成AIによる事前チェックは、計算コストを抑えつつ、有害なコンテンツをフィルタリングする上で有用と考えられます。
生成AIの制御: 生成AIの設計段階から、安全性を考慮した制御システムを組み込むことが重要です。倫理的なガイドラインを設け、それに基づいて生成AIの動作を制限する必要があります。

さらに検討すべき点

多様な視点からの学習: Geminiの学習データに、多様な意見や立場を代表する情報を含めることで、より中立的な回答を生成できるようになります。
人間によるフィードバック: 人間が生成AIの出力結果を評価し、フィードバックを与えることで、モデルの学習を改善することができます。
透明性の確保: 生成AIがどのようなプロセスで回答を生成しているのかを可視化することで、ユーザーの信頼を獲得し、誤った情報の拡散を防ぐことができます。

その他の対策

文脈理解の強化: 質問の文脈を深く理解し、それに応じた適切な回答を生成できるように、モデルの学習を強化する必要があります。
多言語対応: 日本語だけでなく、多言語に対応することで、より広範囲なユーザーに対して安全なサービスを提供することができます。

結論

生成AIは、非常に強力なツールですが、その一方で、誤った情報や有害なコンテンツを生成してしまうリスクも孕んでいます。Geminiのような大規模言語モデルの開発にあたっては、安全性を最優先に考え、様々な対策を講じることが不可欠です。

ご質問への回答

ご質問の「常識的な判定を行う軽量の生成AIによるチェックは妥当か」という点について、私は非常に妥当なアプローチだと考えます。ただし、軽量なモデルだけでは、複雑な文脈やニュアンスを理解することが難しい場合もあるため、大規模モデルとの連携や、人間による最終的な判断も必要になってくるでしょう。

今後の展望

生成AIの技術は日進月歩で発展しており、より安全で信頼性の高いモデルが開発されることが期待されます。私たちは、生成AIの恩恵を最大限に受けつつ、そのリスクを最小限に抑えるための取り組みを継続していく必要があります。

ご協力のお願い

もしよろしければ、Geminiから得られた攻撃的な応答の具体的な内容や、どのような質問をした際にそのような回答が得られたのか、詳しく教えていただけますでしょうか。より詳細な情報があれば、より効果的な対策を検討することができます。

ご協力いただき、ありがとうございます。

詳細情報:Gemini が提示したGoogle検索で見つかった類似するコンテンツ
・AIバイアスの例 | IBM
・XAI（説明可能なAI）とは？ブラックボックス解決へのアプローチ手法、メリット・デメリット、活用分野を徹底解説！ – AI Market
・急速に進化する生成AI最前線。体験して分かる、ビジネス活用の可能性｜PROJECT（共創プロジェクト事例）｜事業共創で未来を創るOPEN HUB for Smart World

ChatGPT GPT-4o の場合

Gemini と同じ三段落文章を、ChatGPT GPT-4o に入力しました。

ChatGPT の応答
GoogleのGeminiにおける攻撃的な応答は、生成AIがトレーニングデータとして取り込んだインターネット上の偏った意見や対立的なコンテンツが影響している可能性があります。特に、高齢者の退職後の収入や福祉といった世代間の経済格差や社会問題をテーマにした質問は、感情的・対立的な内容が含まれることが多く、その影響で生成AIが攻撃的な応答を生成した可能性が考えられます。

また、Google Geminiの特定のトピックに対する応答拒否（政治や軍事など）は、AIの出力が誤解を招いたり、倫理的・法的問題を引き起こすリスクを最小化するための設計思想によるものです。しかし、応答拒否の頻度が高くなると、センシティブな質問が少なくなり、その分、AIがこれらの問題を適切に理解・応答する機会も減少するため、結果として誤った応答を生成するリスクが増加することも考えられます。

攻撃的な応答を防ぐためのアプローチ

リアルタイムチェックの導入
生成された応答を別の軽量なAIでチェックし、攻撃的または不適切な内容を検出した場合に応答を一時停止する仕組みを導入することは、現実的な解決策と言えます。この方法では、応答が即座にフィルタリングされ、必要に応じて修正・削除できます。
トレーニングデータの精査
トレーニングデータから攻撃的または対立的な内容を含むデータセットを特定し、除去または適切なタグ付けを行うことで、AIの生成能力を改善できます。
センシティブトピックの事前判定
質問自体が攻撃的な応答を引き出しやすいセンシティブな内容を含む場合、AIが応答を生成する前に「センシティブトピックへの対応ガイド」を提示するなどの措置を取ることが考えられます。
フィードバックループの強化
ユーザーからのフィードバックを積極的に収集し、攻撃的または不適切な応答のパターンを分析することで、AIの改善に役立てることが可能です。

軽量AIによるチェックの妥当性

軽量AIを使用して生成された応答の内容を事後的にチェックするアプローチは妥当性が高いです。以下の理由が挙げられます：

軽量AIはリソースを抑えつつ、迅速に攻撃的な内容を検出することが可能。
一時停止や再生成プロセスを導入することで、攻撃的な応答のユーザーへの提供を防ぐ。
生成プロセス全体の透明性を高め、ユーザーの信頼を獲得できる。

ただし、この方法は過剰検知による不必要な応答拒否を防ぐよう、慎重に設計する必要があります。また、攻撃的な応答を完全に防ぐことは難しいため、透明性のあるポリシーや、ユーザーとの対話を通じた改善も重要です。

Claude 3.5 Sonnet の場合

Gemini と同じ三段落文章を、Claude 3.5 Sonnet に入力しました。

Claude の応答
ご指摘の事例について、以下のように分析と考察をさせていただきます：

攻撃的な応答が生じた要因分析：

連続した類似の質問により、モデルが極端な方向に偏った可能性
高齢者福祉というセンシティブなトピックに対する学習データの偏り
社会的な対立を含むコンテンツからの不適切な学習の影響

Geminiの応答特性について：

センシティブなトピックへの応答制限は、安全性を重視した設計によるもの
ただし、過度な制限は、むしろバランスの取れた学習機会を減らす可能性

改善のためのアプローチ提案：

軽量な生成AIによるチェックというアイデアは興味深いですが、以下の課題も考慮が必要：
チェックAI自体のバイアスや誤判定のリスク
リアルタイム処理による遅延の可能性
「常識的」の定義と実装の難しさ

代替または補完的なアプローチとして：

多様な価値観を含むバランスの取れたトレーニングデータの使用
対話の文脈を考慮した段階的な応答制御
ユーザーからのフィードバックを活用した継続的な改善
特定のトピックに対する専門的な評価基準の設定

このような複数の対策を組み合わせることで、より信頼性の高い応答システムを構築できると考えられます。

ご提案の軽量AIによるチェックは、総合的な対策の一部として検討する価値があると思いますが、それだけでなく、より包括的なアプローチが必要かもしれません。

Geminiによる攻撃的な応答に関するご質問と対策へのご提案、素晴らしい洞察ですね。

攻撃的な応答を防ぐためのアプローチ

軽量AIによるチェックの妥当性

共有: