动态列表

英伟达AI超算3999开售，「掌心之中」可部署所有大参数开源模型！
登顶Hugging Face GAIA全球榜首！中兴超级智能体终结「AI黑盒」时代
AI圈再颠覆！中国AI翻译耳机通话翻译，实测震撼
一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军
vivo X300 Pro：以「水桶旗舰」之躯，重登旗舰山巅
直到毕业我才懂：原来延期的博士，不止我一个
让论文自己讲！Paper2Video一键生成论文讲解视频，赶顶会DDL不慌了
8美元“驯服”DeepSeek-V3.2？Training-Free GRPO把RL成本打到地板
NeurIPS 2025 | 让AIGC视频变为可探索场景：Instant4D实现单目动态场景的分钟级重建
NeurIPS 2025 | PPFN：渐进式提示融合，让红外图像增强在复杂场景下性能提升8.76%
库克抖音带货 iPhone 17 Air，22 日开售；小米客服回应「SU7 门把手」；「丐版」特斯拉明年国内投产
他用一生证明AI没有意识！「中文屋」提出者逝世，享年93岁
今年诺奖成果曾遭质疑无用，但华人团队用它研制了未来芯片的「钥匙」
剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了
ICLR神秘论文曝光！SAM3用「概念」看世界，重构视觉AI新范式
硅谷爆发反AI「起义」！程序员拒用Cursor被一周解雇
如果RL可预测，我们还需要把训练跑满吗？中科大揭示参数更新的线性秘密
强化学习再迎范式切换：Sergey Levine团队把目标改写成“到达时间”
国行 eSIM 尘埃落定，iPhone Air「下周见」
为什么谷歌搜不到「没有条纹的衬衫」｜AI 上新
SAM 3揭开面纱：不止分割万物，更能理解概念，交互式分割迎来新篇章！
ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
雷军亲自测试，小米YU9实车谍照曝光；宇树获「秧歌机器人」专利；微团开卖「Win XP」蓝天白云拖鞋
永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍
濒死3次，医生判他死刑！宾大教授奇迹自救，誓用AI攻克14000种绝症
告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星
Bug变奖励：AI的小失误，揭开创造力真相！
复旦张军平：人类是硅基生命过渡体？
Meta Ray-Ban Display 首发体验合集：悬浮在现实中的一张便签
OriginOS 6 深度体验：当操作系统回归「体验为王」
Mamba-3惊现ICLR 2026投稿：三重升级打满“推理优先”范式
93%成功率！从“改提示”到“写剧情”：STaR-Attack用叙事推理攻破大模型防线
NeurIPS 2025 | Latent Harmony：潜空间和谐共生，实现UHD图像修复新SOTA
NeurIPS 2025 | NTN-Diff：一石二鸟，利用空文本与频率感知破解图像修复难题
马斯克脑机公司展示脑机控制机械臂；三星中国发布折叠屏新机，16999 元起售；滴滴自动驾驶获 20 亿元融资 | 极客早知道
77岁「AI教父」Hinton：AI早有意识！我们打造的智能，可能终结人类文明
全球首款1.8nm芯片亮相！华人CEO打响关键一战，英特尔杀回来了
清华万引教授：万倍加速催化剂设计，AI突破DFT瓶颈！
陶哲轩亲测！GPT-5 Pro 40分钟破解3年难题，登顶最难数学考试
刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人
Attention is NOT All You Need：让“深度”重新流入时间，而非堆叠在参数之上
NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！
OpenAI 卖货做视频，Anthropic 专心写代码，谁能赢？
一颗 1.8 纳米芯片，成了英特尔「最后的救赎」
这款 AI 调研神器，让我一键产生 1000 个「种子用户」｜AI 上新
都用 GPT，为什么你没法中「百万大奖」？
ChatGPT 变身 App Store，「对话即应用」时代到了
IROS 2025 Oral | RAG-6Dpose：三大创新模块，利用 CAD 作为知识库进行检索增强 6D 姿态估计
IROS 2025 | 速度飙升24倍！巴黎萨克雷大学等提出HARP-NeXt：实时3D激光雷达分割新标杆
「丐中丐」版特斯拉来了，Model 3/Y降价超3.5万元
高德扫街榜的 23 天奇袭
张一鸣近年来首次公开亮相；微软上海开始新一轮裁员，补偿N+4；罗永浩锐评 iPhone 17
GPT-5王者归来？奥特曼称AI已跨科学门槛，三大学科正迎来实质性突破
老黄押宝「美版DeepSeek」！谷歌天才叛将创业，一夜吸金20亿美元
任意Agent皆可强化学习！微软推出Agent Lightning框架，无需修改任何代码
13万被引！ImageNet作者苏昊或将加盟复旦
250份文档投毒，一举攻陷万亿LLM！Anthropic新作紧急预警
和两位 CEO 聊 Sora：应用层爆发的里程碑事件，创业者的机会来了
新一代短剧人，涌向郑州「淘金」
社交媒体的黄金时代，结束了
U-Bench：U-Net十年“大乱斗”终结者，100个变体、28个数据集的终极对决
东京大学、牛津大学等联合发布VLA万字综述：机器人迈向通用智能的全栈指南
北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
EMNLP 2025 | 拨云见日：知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
DeepSeek苦练1T，清华只用5B？InfLLM-V2把稀疏注意力玩明白了
Sora 下载量破 100 万次；国庆中秋假期国内游总花费超过 8000 亿元；智驾多位核心高管离职，蔚来回应｜极客早知道
谷歌杀入诺奖神殿，两年三冠五得主！世界TOP3重现贝尔实验室神话
OpenAI×英伟达，可能创造了人类史上最大万亿级泡沫
H-1B正在筛掉「下一个英伟达」？
全球AI视频大战升级！「中国版Sora」Vidu Q2参考生月底发布，能力对标Sora 2
第二代InfLLM开源，同尺寸快三倍！零参数，可训练稀疏注意力
腾讯推出TRM：让大模型像人类一样批判性思考，从文本依赖到事实正确
马毅团队重磅发布新书：从MCR²到白盒Transformer，重构深度学习的第一性原理
稳住训练、跑出泛化：STAGE重写「自回归图像生成」的强化学习范式
Diffusion²来袭：威斯康星大学&华盛顿大学等提出双扩散模型，“回溯历史-预测未来”，破解自动驾驶“鬼探头”难题
北大等提出TrackVLA++：赋予机器人推理与记忆，跟踪成功率飙升12%
把我的第一次日本旅行，完全交给 AI 是什么体验？
英伟达将投资马斯克的 xAI；低价版Model 3/Y 「阉割」智驾功能；微信推出批量撤回信息功能
刚刚，清华物理传奇Yao Shunyu，跳槽谷歌DeepMind！
赚100亿，烧1万亿！OpenAI算力神话：英伟达撒钱、AMD送股、全硅谷陪跑
英伟达垄断AI算力局面或将被颠覆！AMD赌上身家发起决斗，奥特曼窃喜
刚刚，2025年诺贝尔化学奖揭晓！偷溜进图书馆的少年，改变了世界
小心，AI依赖会让你变笨！吴恩达等专家教你如何正确使用AI
无RLHF，7M小模型反超DeepSeek-R1：三星团队用递归思考取代规模堆叠
告别深度传感器！慕尼黑工业大学提出DropD-SLAM：仅用单目RGB即可实现RGB-D级的SLAM精度
IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen：用生成视频评估自动驾驶，虚拟测试更逼真

Karpathy「疯狂之作」：100美元、4小时，就能训练你自己的「小型GPT」

2025-10-14未知作者来源

新智元报道

编辑：定慧

【新智元导读】AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」，以不到8000行代码复现ChatGPT全流程，只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标！

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

AI传奇人物、前特斯拉AI总监Karpathy宣布发布全新项目nanochat!

一个极简但完整的「从零构建ChatGPT」训练框架。

Karpathy说这是他写过的最疯狂的项目之一！

相当于每个人都可以自己拥有一个专属的ChatGPT。

项目刚放出还不到12个小时，GitHub星标就破4.2kStar！（还在持续疯涨中）

GitHub项目：https://github.com/karpathy/nanochat

全是社区自来水流量，这就是Karpathy在AI领域的号召力！

与早期的nanoGPT不同，nanochat不仅涵盖预训练，还囊括了从数据准备、预训练、中期训练（对话、多项选择题、工具使用）、SFT、RL微调到推理部署的全流程。

整个系统仅约8000行干净代码，启动一台GPU机器、运行一条脚本，4小时后你就能在网页界面与自己训练的「小ChatGPT」对话。

Karpathy将其称为LLM101n的「压轴之作」，同时也可能成为未来研究基线和开源社区的实验平台。

让我来仔细看看如何仅仅用8000行来「克隆」ChatGPT：

使用全新的Rust实现训练分词器
在FineWeb上对TransformerLLM进行预训练，评估多个指标下的CORE分数
在来自SmolTalk的用户-助手对话、多项选择题、工具使用数据上进行中期训练
进行SFT，在世界知识多项选择题（ARC-E/C、MMLU）、数学（GSM8K）、代码（HumanEval）上评估聊天模型
使用「GRPO」在GSM8K上对模型进行强化学习微调（RL）
在带有KV缓存的引擎中实现高效推理，简单的预填充/解码，工具使用（在轻量级沙箱中的Python解释器），通过CLI或类ChatGPT的网页界面与其交互。
撰写一份单一的Markdown成绩单，总结并将整个过程游戏化。

项目全程花费低至约100美元（约在一台8XH100节点上训练4小时）。

可以训练、克隆一个可以对话的小型ChatGPT，它能创作故事/诗歌、回答简单问题。

只需要训练约12小时即可超过GPT-2的核心指标。

随着进一步扩展到约1000美元（约41.6小时训练），模型会迅速变得更连贯，能解决简单的数学/代码问题并做多项选择题。

训练24小时的模型（其FLOPs大致相当于GPT-3Small125M，约为GPT-3的1/1000）在MMLU上能进入40分段，在ARC-Easy上进入70分段，在GSM8K上进入20分段等。

总结一下就是：

100美元→可训练出一个能写诗、回答基础问题的OpenAI同款「小型ChatGPT」；
1000美元→达到近GPT-2以上的表现，可做基础推理与代码生成。

这个项目体现出他的核心理念：

「降低 LLM 研究与复现门槛，让每个人都能亲手训练自己的模型。」

这种民主化路线，与他在nanoGPT时期倡导的「从零实现Transformer」如出一辙。

项目地址：https://github.com/karpathy/nanoGPT

Karpathy说他的目标是把完整的「强基线」栈整合到一个连贯、极简、可读、可修改、可最大化派生的仓库中。

nanochat将成为LLM101n（仍在开发中）的压轴项目。

Karpathy认为nanochat也有可能发展成一个研究工具或基准，就像之前的nanoGPT一样。

nanoGPT教你造大脑，nanochat教你造ChatGPT。

如果说nanoGPT是「Transformer源码教学项目」。

那么，nanochat则是「LLM生态系统微缩版」、OpenAI同款、你的专属AI。

二者关系可理解为「从神经网络基础到产品级对话系统」的两步闭环。

从Vibe Coding到nanoGPT，再到如今的nanochat，Karpathy不愧是「AI教育者」的最佳代言人。

这一「疯狂之作」并非狂想，而是Karpathy对AI开放、可学习、可复现理想的又一次践行。

小型ChatGPT效果展示

Karpathy在WebUI部署了nanochat项目。

他还给出了「与价格为100美元、运行4小时的」nanochat的示例对话。

很……有趣！

下面这张图展示的是Karpathy在nanochat「$100速度跑」实验（即只用一台GPU、约4小时训练出的ChatGPT 小模型）中生成的「成绩单」部分内容，说明模型规模、训练耗时、以及在各类标准评测上的性能。

Characters: 333989 —— 代码总字符数。
Lines: 8304 —— 大约 8300 行干净、注释良好的代码。
Files: 44 —— 工程文件数量。
Tokens: 约83,497 —— 代码中的token数（大致对应8万词）。
Dependencies: 2004行uv.lock依赖清单 —— 表明依赖极少、项目结构轻。

这些数字展示了nanochat的「极简」精神：完整实现了 ChatGPT 的训练、微调与推理，却仍保持在8000行代码以内。

参考资料：

https://x.com/karpathy/status/1977755427569111362

https://github.com/karpathy/nanochat

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652634110&amp;idx=1&amp;sn=2816c3458f38e6f2ceb6d03f39e34708&amp;chksm=f0b4e74365665eb5c62ba832d0644d3e607d83cb7b8f8075f272a4ba2744ca4049784f3b16fb&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/UiJ15dvPdl&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

Karpathy「疯狂之作」：100美元、4小时，就能训练你自己的「小型GPT」

新智元报道

【新智元导读】AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」，以不到8000行代码复现ChatGPT全流程，只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标！

Karpathy在WebUI部署了nanochat项目。

类别

资源

联系我们