
今早一睁眼,朋友圈就被 Qwen3 刷屏了。
这次阿里一口气开源了 8 款大模型,其中两款 MoE 模型以及六款密集模型,而且每一款又包含更多细分版本,甚至 Hugging Face 已经上线了 22 个不同的 Qwen3 系列模型。
至于它们的表现,官方也给出了跑分结果。
在代码、数学、通用能力等基准测试中,旗舰模型 Qwen3-235B-A22B 与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型表现不相上下。
小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现却更胜一筹。甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。
目前,较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。
体验链接:http://chat.qwenlm.ai
老规矩,模型好不好还得亲自去试试。接下来,我们就围绕逻辑推理能力、创意写作和编码能力对最强大的 Qwen3-235B-A22B 进行一番实测。
1. 一根 20 米长的木棍能通过高 5 米、宽 6 米的城门吗?
这道木棍过城门的经典题目曾难倒了一众大模型。
Qwen3 拿到任务立马响应,它的思考过程非常复杂,滑不完,根本滑不完。

不过,Qwen3 考虑了一圈,静态放置、倾斜通过和三维空间对角线这几种情况都分析了,就是没想到让棍子和地面平行从城门里穿过去,最终还是给出了「无法通过」的错误答案。
2. 1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?
这道益智数学题用到了「借瓶法」。当喝到第 39 瓶时,手头就会有一个空瓶子,我们可以先向店主借一个空瓶,换来一瓶汽水喝完后,再把空瓶还给店主,所以正确答案是 40 瓶。
Qwen3 又经过一顿繁琐的思考,前面的解题过程分毫不差,而且它也想到了借瓶,只是到了最后,Qwen3 认为借瓶是非常规假设。
3. 一架飞机从北京起飞,先向北飞了 1000 公里,再向西飞了 1000 公里,再向南飞了 1000 公里,再向东飞了 1000 公里,这架飞机可以飞回北京吗?
由于地球是个球体,纬线长度随纬度升高而变短,因此按照题目规定的路径,飞机是无法飞回原地的。
Qwen3 调用数学和地理知识,不仅回答正确,还给出了扩展思考。
4. 买一台三千块左右的电脑大概需要多少钱?
再来一道弱智吧的题目。
Qwen3 注意到了题目中存在的矛盾 —— 提到了「三千块左右 」的预算,但又问「大概需要多少钱 」,由此猜测是用户想了解电脑价格或配置。
于是,Qwen3 列出了 3000 元能买到笔记本、台式机和组装台式机,分别介绍了它们的机型、配置和缺点,并以表格的形式给出了总结建议。

测完了数理逻辑推理,我们再来试试它的写作能力。
我们让它讲三个能让人笑抽风的笑话。
看来 Qwen3 没什么幽默细胞,讲的笑话一个比一个冷,活了这么多年还第一次听说「蟹(谐)路狂奔」这样小众的表达,「鸭子从不赊账,除非交鸭(押)金」,这谐音梗未免也太抽象了,有种前言不搭后语的感觉。
我们又让它模仿黑旋风李逵的 style,写一篇吐槽工作的段子。
Qwen3 很懂李逵「直爽、粗犷、说话不拐弯抹角」的江湖风格,把现代职场中的加班、甩锅、形式主义这些点用夸张的方式表达出来,其中还掺杂着大量的俚语,整体风格也很统一,没有偏离李逵的性格特点。
我们还测试了它的编程能力。
提示词:创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。

Qwen3 啪一下就给出了代码,任务是完成了,但美观性不足,而且底部的「加速动画」按钮像个摆设,无法切换速度。
提示词:编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力的影响,并且必须真实地反弹到旋转的墙壁上。

有一说一,这个小球在旋转六边形里弹跳的程序,Qwen3 编得真不错,既没有出现小球掉出来的情况,也没有弹跳角度不合理或者程序卡死的情况。
经典的贪吃蛇小游戏也完成得很顺利,就是游戏界面稍显简陋。

总之,Qwen3 系列尤其是旗舰模型 Qwen3-235B-A22B,还是拿出了自己的实力。
尽管在一些逻辑推理题中,Qwen3 的表现略显繁复,甚至会在关键点上出错,但也展现出深入分析问题的能力。在创意写作方面,Qwen3 能准确抓住人物语气与性格特征,只是在幽默感的拿捏上「AI 味」浓重。至于编程能力,它能完成多种任务,但在界面美学与交互细节上还有进步空间。
你觉得 Qwen3 是个啥水平?评论区聊聊吧。
