2026 年中 AI 模型大盘点

Claude Fable 5 昨天刚发布——还有 GPT-5.5、Gemini 3.5、开源模型，以及你家电脑能跑什么

2026-06-10

本文事实查证日期：2026 年 6 月 10 日。 AI 行业变化极快，价格、版本号、可用范围都可能在几周内改变。文中所有日期、价格、跑分都注明了来源；凡是只有传闻、官方没确认的内容，都会明确标出「传闻」二字。

先交代几个词，后面会反复用到

这篇文章会聊很多模型，先把几个绕不开的词用大白话讲清楚：

大模型（LLM，大语言模型）：就是 ChatGPT、Claude 这类 AI 背后的”大脑”，靠读过海量文字学会理解和生成语言。
token（词元）：AI 读写文字的最小单位。一个英文单词大约是 1～2 个 token，一个汉字大约也是 1～2 个 token。AI 公司的 API（应用程序接口，简单说就是让你的程序去调用别人的服务，像点外卖一样下单取结果）按”每百万 token”收费。
上下文窗口（context window）：模型一次能”记住”的内容总量。100 万 token 的窗口，大约相当于一次塞进 7～8 本长篇小说。
跑分（benchmark）：给 AI 出标准化考卷，看它得多少分。本文常提的 SWE-Bench Pro 就是一张很难的卷子：给 AI 一堆真实软件项目里的 bug，看它能修好百分之多少。
智能体（agent）：不只是聊天，还能自己拆解任务、调用工具、连续干几个小时活的 AI。2026 年所有大公司都在拼这个。
开源权重（open weights）：把训练好的模型文件公开放出来，任何人都能下载到自己电脑上运行。注意它和传统”开源软件”略有区别——很多模型只放文件、不放训练数据和全部代码，所以严格说叫”开放权重”更准确。

一、Claude Fable 5：昨天刚发布的”最强公开模型”

2026 年 6 月 9 日（就是本文发布的前一天），Anthropic 同时发布了两个模型：Claude Fable 5 和 Claude Mythos 5。这是这次盘点里最新的一条新闻（来源：Anthropic 官方公告、CNBC、TechCrunch）。

Fable 5 强在哪

它是 Anthropic 历史上公开发售过的能力最强的模型，在软件工程、知识工作、视觉理解、科研等几乎所有测试项上都是当前最高水平（SOTA，state of the art，“目前最好成绩”的意思）。
在 SWE-Bench Pro（上面说过的”修真实 bug”考试）上拿到 80.3%。作为参照：今年 4 月各家开源旗舰冲上头条的成绩还在 58% 左右（见后文），差距非常直观。
它是第一个在 Hex 公司的数据分析基准上超过 90% 的模型。
上下文窗口 100 万 token，单次最长输出 12.8 万 token。

“双胞胎”Mythos 5 是怎么回事

Fable 5 其实是一个更强的内部模型族（Mythos 级）经过安全加固后的”公众版”。同一天，Anthropic 把没有完全加固的版本 Claude Mythos 5 单独给了一小批网络安全防御机构和关键基础设施公司使用（通过一个叫 Project Glasswing 的项目），官方称它是目前世界上网络安全能力最强的模型。

普通用户用 Fable 5 时有一道安全机制：碰到敏感的网络攻击、生物、化学、模型蒸馏（把大模型的能力”抄”进小模型的技术）类问题，系统会自动改由上一代的 Claude Opus 4.8 来回答。官方说这种”回退”平均不到 5% 的会话会触发（来源：9to5Google）。

价格和怎么用

Fable 5 已经上线 Claude 网页版/App（Pro、Max、Team、Enterprise 订阅在 2026 年 6 月 22 日前都包含它），也上了 API 和 Amazon Bedrock（亚马逊云上托管各家大模型的服务）。

Claude 全家价目表（API 价格，每 100 万 token，美元；来源：Anthropic 官方模型文档，查证日 2026-06-10）：

模型	定位	输入价	输出价	上下文
Claude Fable 5	最强旗舰（Opus 之上的新档位）	$10	$50	100 万
Claude Opus 4.8	上一代旗舰，日常重活主力	$5	$25	100 万
Claude Sonnet 4.6	速度与智力的平衡款	$3	$15	100 万
Claude Haiku 4.5	最快最便宜，干简单活	$1	$5	20 万

一句话总结：Fable 5 的定价是 Opus 4.8 的两倍，Anthropic 第一次在 Opus 之上又开了一个档。

二、OpenAI：六周一更的恐怖节奏

OpenAI 今年上半年的关键词是”快”——GPT-5.4 发布仅六周后就推出了 GPT-5.5（来源：Fortune）。

GPT-5.5（2026 年 4 月 23 日发布，4 月 24 日连同 GPT-5.5 Pro 上 API）：OpenAI 称之为”迄今最聪明、最顺手”的模型，主打在电脑上连续完成整件工作——写代码、查资料、做表格、操作软件，一路干到任务结束。官方还强调它完成同样编程任务用的 token 明显更少，等于变相降价（来源：OpenAI 官方、TechCrunch）。
GPT-5.5 Instant（5 月 5 日）：成为 ChatGPT 的新默认模型，更快、幻觉（一本正经地编造错误信息）更少（来源：TechCrunch）。
特种部队模型：4 月还出现了两个”不对公众开放”的型号——GPT-Rosalind（生命科学专用的前沿推理模型，只给生物防御机构、基因组学研究者等经过审查的对象用）和 GPT-5.4-Cyber（网络安全专用，只给经过认证的安全团队）。这和 Anthropic 的 Mythos 5 思路如出一辙：最危险的能力开始”持证上岗”。
图像与视频：图像模型升级为 ChatGPT Images 2.0（4 月）；视频模型 Sora 2 的消费者 App 已在 4 月停运，其 API 也定于 2026 年 9 月 24 日退役——这通常意味着继任者（外界普遍叫它 Sora 3，属于合理推测而非官宣名）已经不远了。

价格方面，GPT-5 标准版 API 为输入 $1.25 / 输出 $10（每百万 token），上下文 40 万 token。GPT-5.5 各档的最新单价本文未逐项核对，以 OpenAI 官方价格页为准。

三、Google：I/O 大会上把”默认模型”换了

Google 在 5 月 19 日的 I/O 2026 开发者大会上动作很大（来源：Google 官方博客、9to5Google 汇总）：

Gemini 3.5 Flash：当天发布并直接成为 Gemini App 和搜索 AI 模式的全球默认模型。罕见的是，这个”轻量版”在编程和智能体跑分上反超了自家更大的 Gemini 3.1 Pro，速度还快约 4 倍。Google 同场宣布搜索 AI 模式月活用户已超 10 亿。
Gemini 3.5 Pro：官方宣布”将于 6 月推出”（也有媒体报道为 7 月）。截至本文查证日，以 Google 官方上线公告为准。
Veo 3.1（视频生成）：原生支持 4K 和环境音效，API 按秒计费——Lite 约 $0.05/秒、Fast 约 $0.15/秒、标准版约 $0.40～0.75/秒。
Imagen 4（图像生成）：官方预告中的”史上最强文生图”，主打照片级真实感和清晰的文字渲染。
还预告了 Gemini Omni（“任意进、任意出”：图、音、视频、文字随意混合输入输出）和 Gemini Spark（一个 7×24 小时在后台替你盯邮件、查账单的常驻智能体），以及升级版的智能体开发环境 Antigravity 2.0。
开源这边，Google 5 月底放出了 Gemma 4 系列开放权重模型（12B 和 26B-A4B 等），在 Hugging Face 上以 Apache 2.0 许可证（商用友好的宽松开源协议）提供——它们现在就挂在趋势榜最前排（见第六节）。

四、xAI、Meta、Mistral：阵营在重组

xAI（Grok）：今年最大的新闻不是模型，而是公司本身——2026 年 2 月 2 日 SpaceX 以全股票交易收购了 xAI（xAI 估值约 2500 亿美元），5 月 6 日正式并入 SpaceX 成为其 AI 部门（来源：Wikipedia: xAI、x.ai 官方新闻页）。模型方面，Grok 4.3 于 4 月 30 日发布，支持原生视频输入和 100 万 token 上下文，同期还推出了终端编程智能体 Grok Build。Grok 4 系列是闭源的。传闻：Grok 5 正在训练中，官方多次暗示但未公布日期。
Meta（Llama）：目前最新的开放权重系列仍是 2025 年发布的 Llama 4 家族（Scout：1090 亿参数、激活 170 亿，号称 1000 万 token 超长上下文；更大的 Maverick 和 Behemoth）。传闻：多家媒体报道 Meta 已把最强的内部新模型转为只通过 API 提供、不再开放权重。若属实，意味着”开源一哥”正在收缩开放策略——此事 Meta 官方未正式确认，请当传闻看待。
Mistral（法国）：据其官网与媒体报道，2026 年上半年推出了旗舰 Mistral Large 3（约 6750 亿参数，闭源、走 API）和开放权重的 Mistral Small 4（约 1190 亿参数的 MoE）。策略变成”旗舰收费、中小杯开源”。

这里解释一下反复出现的 MoE（Mixture of Experts，混合专家）：把一个超大模型拆成很多个”专家”小组，每次回答只唤醒其中一小部分。所以你会看到”1 万亿参数、激活 320 亿”这种写法——总仓库很大，但每次干活只派一小队人，省电省钱还快。2026 年几乎所有新旗舰都用这个架构。

五、开源阵营：中国模型把跑分卷上了天

2026 年上半年开放权重阵营最热闹的全是中国公司（以下均可在 Hugging Face 免费下载权重）：

模型	公司	发布	规模	许可证	亮点
DeepSeek V4-Pro	深度求索	2026-04	约 1 万亿参数 MoE	MIT	HF 下载量 430 万次，开源人气王
GLM-5 / GLM-5.1	智谱（Z.ai）	2026-02 / 04-07	7440 亿 MoE（激活 440 亿）	MIT	GLM-5.1 曾以 58.4 分登顶 SWE-Bench Pro，压过 GPT-5.4（57.7）
Kimi K2.6	月之暗面	2026-04-20	1 万亿 MoE（激活 320 亿）	修改版 MIT	智能体蜂群：最多 300 个子智能体、4000 步连续作业
Qwen 3.5 / 3.6	阿里	2026 上半年	多档（如 35B-A3B）	Apache 2.0	本地部署社区的主力；但新旗舰 Qwen3.7-Max 转为闭源
MiniMax M3	MiniMax	2026-06-01	开放权重	—	稀疏注意力架构，主打 100 万 token 长上下文又快又便宜

几个值得记住的事实（均为公开报道，查证日 2026-06-10）：

智谱在 1 月 8 日于香港上市，成为全球第一家公开上市的基座模型公司（来源：Hugging Face 博客等）。另据报道，GLM-5 完全用华为昇腾芯片训练——此点来源单一，谨慎采信。
开源旗舰在”修 bug 考试”SWE-Bench Pro 上的成绩（GLM-5.1 为 58.4、Kimi K2.6 为 58.6，来源：MarkTechPost 等）已经追平甚至超过部分闭源旗舰——但和两个月后 Fable 5 的 80.3% 相比，闭源最前沿又拉开了一个身位。追赶与拉开，今年大概每季度轮转一次。
注意一个反向信号：阿里和 Meta 都开始把最强型号收回闭源。开源阵营给力的同时，“最强的那一档”反而在变得更封闭。

六、Hugging Face 趋势榜上现在火什么

Hugging Face（全球最大的开源 AI 模型仓库，类似”AI 界的 GitHub”）的趋势榜是观察社区风向最直接的窗口。以下是 2026 年 6 月 10 日当天趋势榜的代表性条目（笔者直接调 Hugging Face 官方接口拉取）：

模型	类型	看点
google/gemma-4-12B-it	全模态	Gemma 4 主力款，Apache 2.0，下载 58 万+，配套 GGUF 量化版下载 66 万+
deepseek-ai/DeepSeek-V4-Pro	文本生成	下载 430 万次，开源旗舰人气第一
nvidia/LocateAnything-3B	视觉定位	给图片”指哪打哪”的小模型，榜首常客
ideogram-ai/ideogram-4-fp8	文生图	以擅长”在图里写字”出名的 Ideogram 把模型开放了出来
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B	文本生成	英伟达自家 5500 亿参数 MoE，6 月 3 日刚上架
bosonai/higgs-audio-v3-tts-4b	语音合成	90+ 语言、可控情感的开源 TTS（文字转语音）
JetBrains/Mellum2-12B-A2.5B-Thinking	代码	IDE 大厂 JetBrains 出的带思考链的编程小模型
LiquidAI/LFM2.5-8B-A1B	端侧	专为手机/笔记本设计，激活仅 10 亿参数
ByteDance/Bernini-R	图文生视频	字节 6 月 1 日开源的视频生成模型
google/magenta-realtime-2	音乐	实时生成音乐

趋势很明显：榜单不再只是聊天模型的天下——文生图、TTS、视频、音乐、视觉定位、端侧小模型全面开花；而语言模型这边，几乎清一色是 MoE。

七、想在自己电脑上跑，需要什么？

先解释两个词：

显存（VRAM）：显卡上的专用内存，模型必须装进它（或苹果电脑的统一内存）才能跑。显存大小基本决定了你能跑多大的模型。
量化（quantization）：把模型权重从高精度压缩到低精度（比如 4-bit，即 Q4），文件体积和显存占用能砍到约四分之一，智力只损失一点点。社区通用的量化文件格式叫 GGUF，配套最常用的两个运行工具是 Ollama（一条命令装好、最省心）和 llama.cpp（更底层、可调项多）；苹果电脑上还有专属的 MLX 框架。

按硬件档位看（综合 2026 年 6 月社区与媒体的通行经验，实际表现随量化档位与上下文长度浮动）：

你的硬件	能舒服跑什么	例子
16GB 显存（如 RTX 4060 Ti / 4080）	7B～14B 稠密模型，或小激活量的 MoE	Gemma 4 12B（Q4）、各家 7B/8B
24GB 显存（RTX 3090 / 4090）	27B～35B 级（Q4 量化，上下文别开太大）	Qwen3.5-35B-A3B、Gemma 4 26B-A4B
32GB 显存（RTX 5090）	27B～35B 级开到 Q6/Q8 高精度 + 超长上下文，目前”家用 AI 实验室”标配	同上，更高量化档、128K 上下文
Mac（64GB 统一内存起）	凭统一内存可吃下 100B 级 MoE	Llama 4 Scout（109B，Q4）
Mac Studio（128GB+）/ 多卡工作站	百亿激活的大 MoE	更大的 Qwen / Nemotron 档位
普通服务器集群 / 干脆用 API	万亿级开源旗舰	DeepSeek V4-Pro、GLM-5.1、Kimi K2.6

经验法则：模型参数量（B 数）× 0.6 ≈ Q4 量化后大约需要的显存 GB 数，再给上下文缓存留几个 GB。MoE 模型看”总参数”算显存、看”激活参数”算速度——这就是为什么 26B-A4B 的 Gemma 4 在中端卡上也能跑得飞快。

万亿参数的开源旗舰（DeepSeek V4、Kimi K2.6、GLM-5.1）虽然权重免费，但需要几百 GB 显存的多卡服务器才能本地跑——对个人来说，“开源”在这一档的实际意义是便宜的第三方 API 和可审计的权重，而不是装进自家机箱。

八、接下来半年，值得盯着什么

官方已确认的：

Gemini 3.5 Pro——Google 官宣 6 月推出（部分媒体称 7 月）。
Sora 2 API 将于 9 月 24 日退役——OpenAI 的视频生成继任者大概率在那之前发布。
Claude Fable 5 的订阅内含期到 6 月 22 日——之后各订阅档位如何收费，看 Anthropic 后续公告。

传闻与合理推测（官方未确认）：

OpenAI 下半年的大版本（外界叫 GPT-6 或 GPT-5.6）：Sam Altman 公开暗示下半年有”重大模型改进”，无日期。
xAI 的 Grok 5：官方多次预热，正在训练中。
Meta 是否彻底放弃开放最强模型：多家媒体报道，官方未表态。
阿里 Qwen 3.7 是否会出开放权重版：截至查证日未有公告。

结语

把 2026 年上半年压缩成三句话：

闭源最前沿又抬高了一截——GPT-5.5、Gemini 3.5、Claude Fable 5 在两个月内接连刷新纪录，且都押注”能连续干活几小时的智能体”。
开源阵营史无前例地强——中国公司用 MIT/Apache 这种最宽松的许可证放出万亿参数模型，跑分一度登顶；但阿里、Meta 同时在把”最强档”收回闭源。
最危险的能力开始分级供应——Anthropic 的 Mythos 5、OpenAI 的 Rosalind 和 5.4-Cyber 都只给经过审查的机构。“是否向公众开放全部能力”正在成为比跑分更重要的行业分界线。

主要来源

Anthropic：Claude Fable 5 与 Mythos 5 官方公告 · CNBC · TechCrunch · Amazon/AWS · 9to5Google
OpenAI：Introducing GPT-5.5 · TechCrunch（GPT-5.5） · TechCrunch（5.5 Instant） · Fortune
Google：Gemini 3.5 官方博客 · 9to5Google I/O 2026 汇总 · MarkTechPost
xAI / SpaceX：Wikipedia: xAI · x.ai News
开源模型：Hugging Face 博客（GLM-5） · Moonshot 官方论坛（Kimi K2.6） · MarkTechPost（K2.6）
Hugging Face 趋势榜：2026-06-10 经官方 API 实测拉取；各模型页见文内链接
本地部署硬件经验：综合 2026 年 5–6 月 r/LocalLLaMA 社区、Hugging Face 文档与多家评测媒体