← ブログ一覧

AnthropicがClaude Mythosを発表——10兆パラメーターで一般公開はせずサイバー防衛限定

Anthropicが2026年4月8〜9日、「Claude Mythos」を正式発表した。同社が「これまでに作った中で最も強力なモデル」と評するだけあり、能力は突出しているが、その強力さゆえに一般公開はしないという判断が下された。

発表の経緯

Claude Mythosの存在は、2026年3月26日にAnthropicの内部文書が誤って公開されたことで先に発覚した。文書には「by far the most powerful AI model we’ve ever developed(これまでで断然最も強力なモデル)」との記述があり、その後Anthropicが存在を認め、正式発表という流れになった。

モデルの規模と性能

パラメーター数は10兆。コーディング・サイバーセキュリティ・学術的推論を主な用途としており、ベンチマークでも現行モデルを大きく上回っている。

ベンチマークClaude Opus 4.6Claude Mythos
CyberGym66.6%83.1%
SWE-bench Verified80.8%93.9%

CyberGym は、AIがサイバーセキュリティタスク(脆弱性の発見・悪用・防御)をどれだけ自律的にこなせるかを測るベンチマーク(論文)。OSS-Fuzz(Googleの継続的ファジングキャンペーン)由来の実在する脆弱性1,507件で構成されており、AIエージェントは脆弱性の説明と未パッチのコードベースを受け取り、脆弱性を再現するPoC(概念実証)テストを生成する。数千ファイル・数百万行規模のコードを横断した推論が求められる難易度の高いベンチマークで、トップモデルでも単発では30%程度の成功率にとどまる。

SWE-bench Verified は、GitHubの実際のオープンソースリポジトリから収集したバグ修正タスクをAIに解かせるベンチマーク。OpenAIと共同で人間のアノテーターがレビューした500件のタスクで構成されており、問題の明確さ・テストの正確さ・解決可能性が担保されている。「現実のソフトウェアエンジニアリング」に近い難易度で評価されるため、コーディング能力の実力を測る指標として広く参照されている。スコアはテストを通過したタスクの割合。

また、内部レッドチーミングでは最新Linuxカーネルのゼロデイ脆弱性を20分以内に14件発見するという、超人的なパフォーマンスを見せた。

レッドチーミングとはセキュリティ分野の用語で、「攻撃者役(レッドチーム)が意図的にシステムの弱点を突く」手法のこと。内部レッドチーミングはAnthropicが社内で行うもので、スタッフやモデル自身がClaude Mythosに対して悪用・危険な使い方を試みることでリリース前に問題点を洗い出す。なお、このLinuxカーネルの数値は公式発表ではなく流出した内部文書に記載されていた情報のため、確度には注意が必要。

なぜ一般公開しないのか

能力が高すぎることがリスクになる——Anthropicはその判断から一般公開を見送った。代わりに「Project Glasswing」と呼ばれるプログラムを立ち上げ、審査を通過した50組織に限り、サイバーセキュリティ防衛目的でのゲートアクセスを提供する。

参考