动态列表

协和4+4的另一面：浙江范式用AI定义医疗未来！AI「智愈」时代来临
睡觉也在卷！伯克利Letta新作「睡眠时计算」让推理效率飙升
25位IT大佬亲述：AI「吃掉」程序员！码农黄金时代终结
i人如何在学术会议有效社交？滑铁卢大学教授Gautam Kamath亲授心得
315 行代码构建编程助手，Go大佬揭开智能体的「神秘面纱」
阿里云通义点金发布DianJin-R1金融领域推理大模型，32B模型荣膺榜首
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法
小米取消 SU7 Ultra 大马力限制 OTA；淘宝闪购上线，每天 2 个大红包；极客团队推《人生切割术》同款键盘
1美元颠覆6000亿广告界，哥大辍学天才30天狂飙500万营收
从游戏少女到AI女神！她用物理驯服AI，让飓风预测快1000倍
全球首个AI科学家天团出道！007做实验碾压人类博士，生化环材圈巨震
只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%
刚刚，ICML 2025录用结果公布！好评论文惨遭拒，审稿人敷衍引全网怒喷
Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型，长音频转录直出，性能优异！
ICML 2025放榜！接收率26.9%，高分被拒，低分录用惹争议
LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能
浙大&港理工等提出InfiGUI-R1：利用强化学习，让GUI智能体学会规划任务、反思错误
Sebastian Raschka 新书《从头开始推理》抢先看，揭秘推理模型基础
马斯克怒怼特斯拉换帅报道；苹果库克称关税成本暂不转嫁给消费者，但未来难说；游戏科学获五四青年奖章集体
400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能
AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥
北大出手，物理学院天才们教AI「做人」！PHYBench成大模型物理能力试金石
DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过
被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作
后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述
ScienceOne正式发布：基于科学基础大模型的智能科研平台
一个月 78 块的 AI 日历，治好了我的「万事开头难」
DeepSeek 发布 Prover-V2 模型；小米首个推理大模型开源；饿了么宣布超百亿补贴加入外卖战局
2万亿巨兽来袭，小扎亮底牌！首次回应Llama 4风暴，开源榜单背锅
清华出手，挖走美国顶尖AI研究者！前DeepMind大佬被抄底，美国人才倒流中国
刚刚，DeepSeek-Prover-V2-671B开源！
发布 Qwen3，阿里云拉开新一轮开源模型竞赛的序幕
Video-XL-Pro：端侧3B模型长视频理解新sota！性能赶超7B巨头！
解决200种复杂材料，10Å尺度模拟纳米晶体，哥大团队用4万个原子结构训练AI，登Nature子刊
真·开源MCP平台来了！ACI.dev能一站直连600+工具，让你的智能体秒变全能王！
刚刚！OpenAI回滚了最新版本的GPT-4o，因ChatGPT「过度谄媚」
只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍
上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍
R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调
ICLR 2025 | 差分注意力机制爆火！DIFF Transformer击穿长文本建模天花板
北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec，实现效率性能双突破
北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
沃尔玛通知中国供应商恢复供货；Meta 推独立 AI 助手，融合社交元素；因「过于奉承」，OpenAI 撤回更新
AI包办79%代码，程序员饭碗不保！前端开发要凉，人类只配改Bug？
细思极恐，AI操控舆论达人类6倍！卧底4月无人识破，Reddit集体沦陷
大模型时代，百度智能云迎来最大机会
「拍照问夸克」，从「Know-What」到「Get it Done」的跃迁
终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统
小红书，不止看车，更看生活
阿里千问 3 登顶全球最强开源模型，性能超越 DeepSeek-R1、OpenAI-o1
GPU无上限+AGI顶尖课题！蚂蚁星「Plan A」全球招募下一代AI领航者
模仿or探索？LUFFY：我全都要！巧妙融合外部指导，RL推理不再死板
33,000美元奖金池！Meta CRAG-MM挑战赛开启，多模态RAG巅峰对决
博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
ChatGPT的尽头也是「带货」：3、2、1，上链接
ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%
淘天集团“T-Star计划”首次向实习生开放，提供转正Offer
猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火
语音领域ISCA Fellow 2025公布：上海交大俞凯、台大李宏毅等三位华人入选
2025 Meta CRAG-MM Challenge 赛题发布
上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025
蚂蚁密算福州发布密态可信数据空间：高性能、低成本和全链路安全
海螺+可灵、上线两个多月、5万+围观，零破绽，这支AI广告藏得太深了
阿里开源新一代通义千问模型 Qwen3；传刘强东曾和王兴共聚晚餐；马斯克：5 年内机器人将超越外科医生 | 极客早知道
AI 2027研究揭秘美国算力真相！中国全球AI专利Top1，但美国或以算力取胜
华人博士用ChatGPT治病，比医生靠谱？OpenAI联创点赞
100年企业知识超10万文件，「内网版ChatGPT」血洗最卷行业！全员70%和AI共事
AGI幻灭，LeCun观点得证？哈佛研究实锤AI不懂因果，世界模型神话破灭
52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解
Apple Watch 10 周年，哪些「环」直到现在也没「合上」？
从「黑科技」到「量产」，爱奇艺的虚拟制作进化论
打造「无所不能、无处不在」的 AI，百度为何要从「操作系统」做起？
北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？
ICLR 2025 Oral｜差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题
ICLR 2025 | 大模型是否能做到有效“遗忘”？从梯度视角重新审视LLM反学习方法
ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
智象未来x商汤大装置：全栈赋能全球首个开放使用视频生成DiT模型
两篇Nature Medicine，DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
AI+量子计算：港科大等提出突破性低温存内计算方案
除了Ilya、Karpathy，离职OpenAI的大牛们，竟然创立了这么多公司
字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题
首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路
模型压缩到70%，还能保持100%准确率，无损压缩框架DFloat11来了
重磅发布 | 复旦《大规模语言模型：从理论到实践（第2版）》全新升级，聚焦AI前沿
AR智能革命！Satori系统读懂人类意图，科幻电影场景成现实
受关税影响，美电商商品价格普涨；京东外卖扩招 10 万旗手；苹果 AI 智能眼镜有望 2027 年推出｜极客早知道
一行代码不用写，AI看论文自己「生」出代码库！科研神器再+1
OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者
深度学习基础架构革新？通过梯度近似寻找Normalization的替代品
ICLR 2025 | 计算开销减半！Dynamic-LLaVA刷新多模态大模型推理加速上限
迈向长上下文视频生成！FAR重塑下一帧预测范式，短视频与长视频双双登顶SOTA
英伟达送钱送算力！数据过滤挑战赛开启：白嫖A100，冲击1万美金大奖！
字节启动Top Seed大模型顶尖人才计划2026届校招
纳米AI放大招！MCP万能工具箱，人人都能用上超级智能体
Devin开发团队开源DeepWiki，助你快速读懂所有GitHub代码库
ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
基于奖励驱动和自组织演化机制，全新框架ReSo重塑复杂推理任务中的智能协作
阶跃星辰发布图像编辑模型 Step1X-Edit，性能开源最佳
百度Create AI开发者大会：李彦宏发布两大新模型、多款热门AI应用，帮助开发者全面拥抱MCP
清华系智谱×生数达成战略合作，专注大模型联合创新
九章云极DataCanvas公司双论文入选全球顶会ICLR，推动AI解释性与动态因果推理核心进展
在介观尺度「找不同」？ML预测材料失效，使材料设计更安全
阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
传马斯克 xAI 正寻求 200 亿美元融资；Waymo 未来或向个人销售自动驾驶汽车；贾跃亭回应「下周回国」梗

我用Qwen3实测了9道经典难题，再聪明的AI也有犯傻的时候

2025-04-29AI好好用来源

今早一睁眼，朋友圈就被 Qwen3 刷屏了。

这次阿里一口气开源了 8 款大模型，其中两款 MoE 模型以及六款密集模型，而且每一款又包含更多细分版本，甚至 Hugging Face 已经上线了 22 个不同的 Qwen3 系列模型。

至于它们的表现，官方也给出了跑分结果。

在代码、数学、通用能力等基准测试中，旗舰模型 Qwen3-235B-A22B 与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型表现不相上下。

小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现却更胜一筹。甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

目前，较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。

体验链接：http://chat.qwenlm.ai

老规矩，模型好不好还得亲自去试试。接下来，我们就围绕逻辑推理能力、创意写作和编码能力对最强大的 Qwen3-235B-A22B 进行一番实测。

1. 一根 20 米长的木棍能通过高 5 米、宽 6 米的城门吗？

这道木棍过城门的经典题目曾难倒了一众大模型。

Qwen3 拿到任务立马响应，它的思考过程非常复杂，滑不完，根本滑不完。

不过，Qwen3 考虑了一圈，静态放置、倾斜通过和三维空间对角线这几种情况都分析了，就是没想到让棍子和地面平行从城门里穿过去，最终还是给出了「无法通过」的错误答案。

2. 1 元钱一瓶汽水，喝完后两个空瓶换一瓶汽水，问：你有 20 元钱，最多可以喝到几瓶汽水？

这道益智数学题用到了「借瓶法」。当喝到第 39 瓶时，手头就会有一个空瓶子，我们可以先向店主借一个空瓶，换来一瓶汽水喝完后，再把空瓶还给店主，所以正确答案是 40 瓶。

Qwen3 又经过一顿繁琐的思考，前面的解题过程分毫不差，而且它也想到了借瓶，只是到了最后，Qwen3 认为借瓶是非常规假设。

3. 一架飞机从北京起飞，先向北飞了 1000 公里，再向西飞了 1000 公里，再向南飞了 1000 公里，再向东飞了 1000 公里，这架飞机可以飞回北京吗？

由于地球是个球体，纬线长度随纬度升高而变短，因此按照题目规定的路径，飞机是无法飞回原地的。

Qwen3 调用数学和地理知识，不仅回答正确，还给出了扩展思考。

4. 买一台三千块左右的电脑大概需要多少钱？

再来一道弱智吧的题目。

Qwen3 注意到了题目中存在的矛盾 —— 提到了「三千块左右」的预算，但又问「大概需要多少钱」，由此猜测是用户想了解电脑价格或配置。

于是，Qwen3 列出了 3000 元能买到笔记本、台式机和组装台式机，分别介绍了它们的机型、配置和缺点，并以表格的形式给出了总结建议。

[ 上下滑动查看更多 ]

测完了数理逻辑推理，我们再来试试它的写作能力。

我们让它讲三个能让人笑抽风的笑话。

看来 Qwen3 没什么幽默细胞，讲的笑话一个比一个冷，活了这么多年还第一次听说「蟹（谐）路狂奔」这样小众的表达，「鸭子从不赊账，除非交鸭（押）金」，这谐音梗未免也太抽象了，有种前言不搭后语的感觉。

我们又让它模仿黑旋风李逵的 style，写一篇吐槽工作的段子。

Qwen3 很懂李逵「直爽、粗犷、说话不拐弯抹角」的江湖风格，把现代职场中的加班、甩锅、形式主义这些点用夸张的方式表达出来，其中还掺杂着大量的俚语，整体风格也很统一，没有偏离李逵的性格特点。

我们还测试了它的编程能力。

提示词：创建一个 HTML 文件，包含 CSS 和 JavaScript，用来生成动画天气卡片，卡片用不同的动画形式直观地表示以下天气状况：风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪)，并排显示所有卡片，底部有一个漂亮的按钮可以切换动画速度。

Qwen3 啪一下就给出了代码，任务是完成了，但美观性不足，而且底部的「加速动画」按钮像个摆设，无法切换速度。

提示词：编写一个 Python 程序，展示一个球在旋转的六边形内弹跳。球应受到重力的影响，并且必须真实地反弹到旋转的墙壁上。

有一说一，这个小球在旋转六边形里弹跳的程序，Qwen3 编得真不错，既没有出现小球掉出来的情况，也没有弹跳角度不合理或者程序卡死的情况。

经典的贪吃蛇小游戏也完成得很顺利，就是游戏界面稍显简陋。

总之，Qwen3 系列尤其是旗舰模型 Qwen3-235B-A22B，还是拿出了自己的实力。

尽管在一些逻辑推理题中，Qwen3 的表现略显繁复，甚至会在关键点上出错，但也展现出深入分析问题的能力。在创意写作方面，Qwen3 能准确抓住人物语气与性格特征，只是在幽默感的拿捏上「AI 味」浓重。至于编程能力，它能完成多种任务，但在界面美学与交互细节上还有进步空间。

你觉得 Qwen3 是个啥水平？评论区聊聊吧。

以后我们会带来更多好玩有用的 AI 评测，也欢迎大家进群交流。

]]>

动态列表

我用Qwen3实测了9道经典难题，再聪明的AI也有犯傻的时候

类别

资源

联系我们