IBM ResearchとArtificial Analysisが共同開発した初のエンタープライズIT向けエージェントベンチマーク「ITBench-AA」の結果が公開された。Kubernetes障害診断など59のSRE(サイト信頼性エンジニアリング)タスクでフロンティアモデルをテストしたところ、全モデルが50%未満という衝撃のスコアを記録。Claude Opus 4.7が47%でトップ、GPT-5.5が46%で続く。汎用ベンチマークで高得点を誇るモデルでも、実際の企業IT現場では半分以上の確率で失敗することが明らかになった。
🔗 https://artificialanalysis.ai/evaluations/itbench-aaドイツのヒューマノイドロボット企業NEURA Roboticsが、Amazon、NVIDIA、Qualcomm、Tether、Boschなどを引受先に最大14億ドルのシリーズCラウンドを完了した。ヨーロッパの物理AIスタートアップとして史上最大規模の調達で、評価額は46億〜70億ドルとされる。4NE1ヒューマノイドロボットとAIプラットフォーム「Neuraverse」の量産体制拡大に充て、2030年までに500万台製造を目指す。ヒューマノイド市場への大企業参入が加速している。
🔗 https://www.cnbc.com/2026/06/10/neura-robotics-funding-ai-humanoid-rob…三菱UFJ、三井住友、みずほの3大メガバンクと日本政府が、Anthropicの公開前最高機密モデル「Claude Mythos」へのアクセスを取得した。ベッセント米財務長官の訪日時に交渉が成立したとされる。Mythosはサービス提供者すら未知のソフトウェア脆弱性を発見できる高度な能力を持つとして知られており、各行はサイバーセキュリティ目的での活用を計画。AI地政学で日本が特別扱いを受けた形となり、金融インフラの安全保障における生成AI活用の新局面を示している。
🔗 https://www.japantimes.co.jp/business/2026/06/03/tech/japan-anthropic-…月額100ドル(Max 5x)・200ドル(Max 20x)のClaudeプレミアムプランの使用量上限が広告より実質的に低いとして、カリフォルニア連邦地裁にクラスアクションが申し立てられた。原告のKarl Kahn氏はMax 20xプランに加入後、わずか5時間で週間利用枠の15%を消費したと主張。AIサブスクの使用量表示をめぐる本格的な集団訴訟は初とみられ、AI課金モデルの透明性問題として業界全体に波紋を広げている。
🔗 https://www.engadget.com/2194626/anthropic-hit-with-lawsuit-over-its-c…ブロガーEd Zitron氏と英フィナンシャル・タイムズが入手したOpenAIの2025年度監査済み財務書類によると、売上高は130.7億ドル(前年比3.5倍)を達成したが、費用は340億ドルに達した。純損失は385億ドルで、うち415億ドルはNPO→営利企業転換に伴う会計上の特別損失。Microsoft向けインフラ費用だけで172億ドルを計上しており、スケーリングコストの実態が浮き彫りに。IPO申請直前のタイミングでの流出となり、投資家の注目を集めている。
🔗 https://www.techtimes.com/articles/318496/20260616/openai-lost-385-bil…心理学の古典的「ストループ課題」(色名と文字色が食い違うリスト)を主要AIモデルに課した結果、短いリストでは90%超の正答率だったが、タスクが長く複雑になるにつれ一部モデルはほぼ完全に失敗した。PNAS Nexus誌に掲載されたこの研究は「トランスフォーマーの注意機構には実行制御の欠如がある」と結論づける。高いベンチマーク得点とは裏腹に、AIが人間の脳とは異なる情報処理を行っているという根本的な限界を示す重要な知見として注目されている。
🔗 https://www.sciencedaily.com/releases/2026/06/260610003049.htm