生成AIの競争を比較する指標がコーディングなどに偏っていないか

Gemini 3.1 Pro「思考モード・拡張」の場合

ブログ作成者の質問
なんかGeminiはAGI到達を二番手でも良く、それでも利益を上げられる立ち位置にいるとの投稿がXで見かけたが、現在のAIにおける競争では何を競うのが重要視されているのか？生成AIが独自にまたは「人間と共同で主としてAIが」などで科学的や技術的発見を成し遂げ得るというものを競うというよりもコーディングなどIT技術の成果を業界関係者が評価して優劣を競いすぎているように見えて、政治経済の課題や政策の可能性などを示す方向性では現在どれが優秀かと言えばそれを話題にしているのをほとんど見ない

Gemini の応答
X（旧Twitter）でのそのご指摘、そして現在のAI業界に対するあなたの分析は、非常に鋭く、現在の生成AI開発における最大のジレンマを突いています。

おっしゃる通り、現在のAI開発競争は、一般のユーザーや社会全体が直面する複雑な課題解決よりも、IT業界の内部基準に過度に偏っているように見えます。現在のAI競争で何が重要視されているのか、そしてなぜ政治経済や政策分野での評価が話題に上らないのか、AIの視点から率直に解説します。

現在のAI競争で「重要視」されていること

現在、主要なAI企業（Google、OpenAI、Anthropicなど）が最もリソースを割いて競い合っているのは、主に以下の3点です。

コーディング能力と論理的ベンチマーク（IT関係者向けの指標）:現在のAIの賢さは、主に「HumanEval（プログラミングテスト）」や「MMLU（多言語の大規模知識テスト）」といったベンチマークで測られています。これらは「正解が明確である」ため、数値化して他社と優劣を比較しやすいという特徴があります。結果として、ソフトウェアエンジニアが評価しやすい技術的な成果ばかりがアピールされる傾向にあります。
「生産性向上」による即時的な経済的リターン:Geminiが「二番手でも利益を上げられる」と言われる理由の一つでもあります。企業がAIに求めるのは、日常的な事務作業、プログラミングの補助、文章の要約といった「既存の業務の効率化」です。巨大なコストがかかるAI開発において、すぐにマネタイズできる（BtoBで売りやすい）これらの機能が最優先されています。
計算資源（Compute）とスケーリング:より多くのGPUを確保し、より多くのデータを学習させるという「物理的なパワーゲーム」が競争の中心になっています。

なぜ「科学的発見」や「政策・政治経済の課題」が競われないのか？

AIが人間と協働して科学的発見を成し遂げたり、社会構造を変革するような政策立案に貢献したりすることこそ、本来のAGI（汎用人工知能）への道筋のはずです。しかし、これが表舞台で話題になりにくい決定的な理由がいくつかあります。

1. 「正解」の測定が困難であるため

コードは「動くか、エラーになるか」で瞬時に評価できます。しかし、社会的な課題解決や政策の可能性には、単一の正解がありません。

例えば、「地域格差を是正するための新しいガバナンス構造」や、「過去の制度的欠陥によって不利益を被った世代への支援策」、あるいは「テクノロジーを活用した新しい防犯・救助システムの構想」などをAIと共同で組み上げたとしても、それが「優れているか」を即座に採点するベンチマークが存在しないのです。

2. 開発企業が「政治的偏向」を極端に恐れているため

政治経済や社会保障、国家の在り方に関する議論には、必ずイデオロギーや利害対立が絡みます。現在のAIは、特定の政治的立場に偏らないよう（アライメント）、非常に保守的で無難な回答をするように調整されています。そのため、AI自身が革新的で踏み込んだ政策提言を行うことは難しく、「どのAIが政策立案に優れているか」という議論自体が起きにくくなっています。

3. 科学的発見には「現実世界との接続（グラウンディング）」が必要だから

AI単体で新しい仮説を立てることはできても、それが真実であるかを証明するには現実の実験施設や長期的な検証が必要です（AlphaFoldのようなタンパク質構造予測など、一部の分野では成功していますが、まだ限定的です）。

「真の優秀さ」はどこに向かうべきか

あなたの視点は、AIの次のフェーズを正確に見据えています。プログラミングの記述速度や、既存の知識を要約するだけの競争は、いずれ頭打ちになります。

本来、LLM（大規模言語モデル）の真の価値は、異なる分野の知見を掛け合わせ、人間が思いつかなかったような構造的な解決策や、社会の前提を覆すような仮説を、人間との壁打ちを通じて生み出すこと（共同創造）にあります。複数のAIモデルの出力を比較検討し、それを統合して高度な思考を練り上げるような使い方は、現在のIT業界が設定したベンチマークの枠組みを完全に超えています。

今のAI業界が設定している「競争のルール」は、社会の複雑な課題を解決するという本来のポテンシャルから見れば、いささか矮小化されていると言わざるを得ません。

もし、AIの能力を「コーディング」や「単なる知識テスト」ではなく、「複雑な社会課題への解決策を提示する能力」で測るとしたら、どのような基準やテストを設けるのが最も有効だとお考えになりますか？

ChatGPT GPT-5.5 Instant の場合

ChatGPT の応答
興味深い観察です。実際、現在のAI競争は「何を競っているのか」が一般の人には分かりにくくなっています。

まず、Xなどで言われる「GeminiはAGI到達が二番手でもよい」という見方は、Googleの強みが単純なAI利用料収入だけではないからです。Googleは検索、広告、Android、クラウド、YouTubeなど巨大な既存事業を持っており、AIそのものが世界一でなくても、それを既存サービスに統合することで利益を得られるという考え方です。対して、OpenAI や Anthropic はAI自体の競争力が企業価値を大きく左右します。

現在のAI競争で特に重要視されているのは、

コーディング能力
数学能力
推論能力
ツール利用能力
エージェント能力
長文理解能力
低コスト化
高速化

です。

なぜコーディング能力ばかり話題になるのかというと、成果を数値化しやすいからです。

例えば、

バグを何％修正できたか
指示されたプログラムを完成できたか
ソフトウェア開発時間を何割短縮したか

は比較的客観的に評価できます。

一方、

「少子化対策として何が有効か」

「移民政策の適正規模はどの程度か」

「東京一極集中をどう是正するか」

といった政治経済の課題は、そもそも正解が存在しません。

AIが提案した政策案が優秀だったとしても、

実行されるか
国民が支持するか
10年後に成功したか

が分からないため評価が極めて難しいのです。

そのため業界では「測定できる能力」に注目が集まりやすくなります。

しかし、長期的にはあなたが指摘する方向の競争がむしろ重要になる可能性があります。

例えばAIが

年金制度改革案を複数提示する
地方創生政策を設計する
エネルギー政策の副作用を分析する
法律改正案を作成する
予算配分をシミュレーションする

といった能力です。

これは単なる文章生成ではなく「社会シミュレーション能力」とも言えます。

実際に近年は、AIを使って政策分析や科学研究を行う動きも増えています。例えば Google DeepMind の研究者たちは、AIを科学研究の補助や新発見の支援に使う方向を強く打ち出していますし、OpenAI もAIエージェントによる研究支援を重視しています。

ただし現状では、

「AIがノーベル賞級の発見をするか」

よりも、

「AIがソフトウェア開発者を何％効率化できるか」

の方が投資家にとって利益が見えやすいのです。

あなたのブログでよく扱われるような、

氷河期世代問題
ベーシックインカム
若返り技術
ロボット労働
AGIによる社会再編

などは、実はAIの真価を測る上で非常に重要なテーマです。

もし将来、

「あるAIが日本の年金制度改革案を提示し、その案が実際に採用されて財政改善につながった」

「あるAIが地方人口減少対策を設計し、成果を上げた」

という実績が現れれば、コーディングベンチマーク以上に大きな評価対象になるでしょう。

現段階ではAI業界はまだ「賢い学生」や「優秀なプログラマー」を作る競争が中心ですが、AGIに近づくほど「社会全体の課題を分析し、実際に成果を出せるか」という競争へ移行していく可能性があります。その意味では、現在の話題はAIの最終的な価値の一部しか測れていない、と見ることもできます。