Claude Fable 5 昨天刚发布——还有 GPT-5.5、Gemini 3.5、开源模型,以及你家电脑能跑什么
2026-06-10
本文事实查证日期:2026 年 6 月 10 日。 AI 行业变化极快,价格、版本号、可用范围都可能在几周内改变。文中所有日期、价格、跑分都注明了来源;凡是只有传闻、官方没确认的内容,都会明确标出「传闻」二字。
这篇文章会聊很多模型,先把几个绕不开的词用大白话讲清楚:
2026 年 6 月 9 日(就是本文发布的前一天),Anthropic 同时发布了两个模型:Claude Fable 5 和 Claude Mythos 5。这是这次盘点里最新的一条新闻(来源:Anthropic 官方公告、CNBC、TechCrunch)。
Fable 5 其实是一个更强的内部模型族(Mythos 级)经过安全加固后的”公众版”。同一天,Anthropic 把没有完全加固的版本 Claude Mythos 5 单独给了一小批网络安全防御机构和关键基础设施公司使用(通过一个叫 Project Glasswing 的项目),官方称它是目前世界上网络安全能力最强的模型。
普通用户用 Fable 5 时有一道安全机制:碰到敏感的网络攻击、生物、化学、模型蒸馏(把大模型的能力”抄”进小模型的技术)类问题,系统会自动改由上一代的 Claude Opus 4.8 来回答。官方说这种”回退”平均不到 5% 的会话会触发(来源:9to5Google)。
Fable 5 已经上线 Claude 网页版/App(Pro、Max、Team、Enterprise 订阅在 2026 年 6 月 22 日前都包含它),也上了 API 和 Amazon Bedrock(亚马逊云上托管各家大模型的服务)。
Claude 全家价目表(API 价格,每 100 万 token,美元;来源:Anthropic 官方模型文档,查证日 2026-06-10):
| 模型 | 定位 | 输入价 | 输出价 | 上下文 |
|---|---|---|---|---|
| Claude Fable 5 | 最强旗舰(Opus 之上的新档位) | $10 | $50 | 100 万 |
| Claude Opus 4.8 | 上一代旗舰,日常重活主力 | $5 | $25 | 100 万 |
| Claude Sonnet 4.6 | 速度与智力的平衡款 | $3 | $15 | 100 万 |
| Claude Haiku 4.5 | 最快最便宜,干简单活 | $1 | $5 | 20 万 |
一句话总结:Fable 5 的定价是 Opus 4.8 的两倍,Anthropic 第一次在 Opus 之上又开了一个档。
OpenAI 今年上半年的关键词是”快”——GPT-5.4 发布仅六周后就推出了 GPT-5.5(来源:Fortune)。
价格方面,GPT-5 标准版 API 为输入 $1.25 / 输出 $10(每百万 token),上下文 40 万 token。GPT-5.5 各档的最新单价本文未逐项核对,以 OpenAI 官方价格页 为准。
Google 在 5 月 19 日的 I/O 2026 开发者大会上动作很大(来源:Google 官方博客、9to5Google 汇总):
这里解释一下反复出现的 MoE(Mixture of Experts,混合专家):把一个超大模型拆成很多个”专家”小组,每次回答只唤醒其中一小部分。所以你会看到”1 万亿参数、激活 320 亿”这种写法——总仓库很大,但每次干活只派一小队人,省电省钱还快。2026 年几乎所有新旗舰都用这个架构。
2026 年上半年开放权重阵营最热闹的全是中国公司(以下均可在 Hugging Face 免费下载权重):
| 模型 | 公司 | 发布 | 规模 | 许可证 | 亮点 |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | 深度求索 | 2026-04 | 约 1 万亿参数 MoE | MIT | HF 下载量 430 万次,开源人气王 |
| GLM-5 / GLM-5.1 | 智谱(Z.ai) | 2026-02 / 04-07 | 7440 亿 MoE(激活 440 亿) | MIT | GLM-5.1 曾以 58.4 分登顶 SWE-Bench Pro,压过 GPT-5.4(57.7) |
| Kimi K2.6 | 月之暗面 | 2026-04-20 | 1 万亿 MoE(激活 320 亿) | 修改版 MIT | 智能体蜂群:最多 300 个子智能体、4000 步连续作业 |
| Qwen 3.5 / 3.6 | 阿里 | 2026 上半年 | 多档(如 35B-A3B) | Apache 2.0 | 本地部署社区的主力;但新旗舰 Qwen3.7-Max 转为闭源 |
| MiniMax M3 | MiniMax | 2026-06-01 | 开放权重 | — | 稀疏注意力架构,主打 100 万 token 长上下文又快又便宜 |
几个值得记住的事实(均为公开报道,查证日 2026-06-10):
Hugging Face(全球最大的开源 AI 模型仓库,类似”AI 界的 GitHub”)的趋势榜是观察社区风向最直接的窗口。以下是 2026 年 6 月 10 日当天趋势榜的代表性条目(笔者直接调 Hugging Face 官方接口拉取):
| 模型 | 类型 | 看点 |
|---|---|---|
| google/gemma-4-12B-it | 全模态 | Gemma 4 主力款,Apache 2.0,下载 58 万+,配套 GGUF 量化版下载 66 万+ |
| deepseek-ai/DeepSeek-V4-Pro | 文本生成 | 下载 430 万次,开源旗舰人气第一 |
| nvidia/LocateAnything-3B | 视觉定位 | 给图片”指哪打哪”的小模型,榜首常客 |
| ideogram-ai/ideogram-4-fp8 | 文生图 | 以擅长”在图里写字”出名的 Ideogram 把模型开放了出来 |
| nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B | 文本生成 | 英伟达自家 5500 亿参数 MoE,6 月 3 日刚上架 |
| bosonai/higgs-audio-v3-tts-4b | 语音合成 | 90+ 语言、可控情感的开源 TTS(文字转语音) |
| JetBrains/Mellum2-12B-A2.5B-Thinking | 代码 | IDE 大厂 JetBrains 出的带思考链的编程小模型 |
| LiquidAI/LFM2.5-8B-A1B | 端侧 | 专为手机/笔记本设计,激活仅 10 亿参数 |
| ByteDance/Bernini-R | 图文生视频 | 字节 6 月 1 日开源的视频生成模型 |
| google/magenta-realtime-2 | 音乐 | 实时生成音乐 |
趋势很明显:榜单不再只是聊天模型的天下——文生图、TTS、视频、音乐、视觉定位、端侧小模型全面开花;而语言模型这边,几乎清一色是 MoE。
先解释两个词:
按硬件档位看(综合 2026 年 6 月社区与媒体的通行经验,实际表现随量化档位与上下文长度浮动):
| 你的硬件 | 能舒服跑什么 | 例子 |
|---|---|---|
| 16GB 显存(如 RTX 4060 Ti / 4080) | 7B~14B 稠密模型,或小激活量的 MoE | Gemma 4 12B(Q4)、各家 7B/8B |
| 24GB 显存(RTX 3090 / 4090) | 27B~35B 级(Q4 量化,上下文别开太大) | Qwen3.5-35B-A3B、Gemma 4 26B-A4B |
| 32GB 显存(RTX 5090) | 27B~35B 级开到 Q6/Q8 高精度 + 超长上下文,目前”家用 AI 实验室”标配 | 同上,更高量化档、128K 上下文 |
| Mac(64GB 统一内存起) | 凭统一内存可吃下 100B 级 MoE | Llama 4 Scout(109B,Q4) |
| Mac Studio(128GB+)/ 多卡工作站 | 百亿激活的大 MoE | 更大的 Qwen / Nemotron 档位 |
| 普通服务器集群 / 干脆用 API | 万亿级开源旗舰 | DeepSeek V4-Pro、GLM-5.1、Kimi K2.6 |
经验法则:模型参数量(B 数)× 0.6 ≈ Q4 量化后大约需要的显存 GB 数,再给上下文缓存留几个 GB。MoE 模型看”总参数”算显存、看”激活参数”算速度——这就是为什么 26B-A4B 的 Gemma 4 在中端卡上也能跑得飞快。
万亿参数的开源旗舰(DeepSeek V4、Kimi K2.6、GLM-5.1)虽然权重免费,但需要几百 GB 显存的多卡服务器才能本地跑——对个人来说,“开源”在这一档的实际意义是便宜的第三方 API 和可审计的权重,而不是装进自家机箱。
官方已确认的:
传闻与合理推测(官方未确认):
把 2026 年上半年压缩成三句话: