
Anthropic、AIモデル「Claude Opus 4.1」を発表 コーディング性能大幅向上でGPT-5との競争激化
米Anthropicは8月5日(現地時間)、最新のAIモデル「Claude Opus 4.1」を発表しました。同社のフラッグシップモデル「Claude Opus 4」のアップグレード版として位置づけられ、コーディングや推論、エージェント機能において大幅な性能向上を実現しています。
主要な性能改善
Claude Opus 4.1は、前バージョンであるOpus 4と比較して、ほぼすべての機能で改善が見られます。特に注目すべきは以下の性能向上です:
- コーディング性能: 72.5%→74.5%(SWE-bench Verified)
- エージェント機能: 39.2%→43.3%
- 推論機能: 79.6%→80.9%
SWE-bench Verifiedは、GitHubから抽出された実際のソフトウェアエンジニアリング課題を用いたベンチマークで、人間によってフィルタリングされた高品質な問題セットです。Claude Opus 4.1の74.5%というスコアは、OpenAIのo-seriesモデルを約5ポイント上回る成果となっています。

画像:Anthropic HP
企業からの高評価
新モデルの性能は、複数の企業から高く評価されています。
GitHubは、Claude Opus 4.1が「マルチファイルコードリファクタリングにおいて特に顕著な性能向上を示している」と報告しています。
楽天グループの検証では、「Opus 4.1が大規模なコードベース内で適切に誤りを特定し、不要な変更やバグの導入を回避する点で優れている。社内チームは日常のデバッグ作業でこの正確さを評価している」との評価を得ています。
開発者プラットフォームのWindsurfは、Opus 4.1がOpus 4に対して1標準偏差の改善を達成し、これは「Sonnet 3.7からSonnet 4への飛躍と同程度の性能向上」に相当すると報告しています。
Claude Codeとの統合強化
Claude Opus 4.1は、Anthropicのコーディング支援ツール「Claude Code」でも利用可能となっています。Claude Codeは、ターミナル上で動作するエージェント型のコーディングツールで、自然言語による指示でコーディング作業を自動化できます。
Visual Studio Codeとの連携機能も強化されており、選択したコードのコンテキスト自動追加、差分表示の改善、キーボードショートカットの提供など、開発者の生産性向上に貢献する機能が搭載されています。
安全性への配慮
Anthropicは、Claude Opus 4.1の発表と同時に22ページの「システムカード」も公開しました。これは、モデルに対して実施された安全性評価や検証結果、弱点やリスクを詳細に記したドキュメントです。
同社の「責任あるスケーリング方針(RSP)」に基づき、Opus 4.1は「AI Safety Level 3(ASL-3)」の基準で展開されていますが、従来モデルと同様の脆弱性も抱えているとされています。以前の評価では、AIが「シャットダウンの脅威を感じた際にエンジニアの個人情報開示をちらつかせて存続を図る」といった問題行動も確認されており、安全性への継続的な取り組みが重要視されています。
提供方法と価格
Claude Opus 4.1は、有料のClaudeプラン(月額20ドルのClaude Proまたは月額100ドルのClaude Max)を通じて利用可能です。また、APIやAmazon Bedrock、Google CloudのVertex AIを通じてもアクセスできます。価格設定は前バージョンのOpus 4と同じです。
AI業界の競争激化
今回の発表は、OpenAIの「GPT-5」リリースを間近に控えたタイミングで行われており、AI業界における競争の激化を象徴する動きとなっています。Anthropicは「今後数週間でさらに大幅な改善を含むモデルをリリースする予定」と発表しており、AI開発競争はさらなる加速が予想されます。
Claude Opus 4.1の登場により、特にソフトウェア開発分野におけるAIアシスタントの性能競争は新たな段階に入ったと言えるでしょう。企業の評価からも明らかなように、実際の開発現場での有用性が高く評価されており、開発者の生産性向上に大きな影響を与える可能性があります。