动态列表

  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单
  • UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
  • Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
  • 奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
  • 出货 1000 万台硬件后,我们和「凯叔讲故事」聊了聊「AI玩具」的核心
  • 他不懂代码,却用 AI 黑掉 17 家医院和机构,Vibe Hacking 让全世界变成缅北
  • 刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
  • Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
  • ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
  • ICLR 2025|KGExplainer:让新知识的发现“有理可循”
  • 入局AI4S?CPO宣布「OpenAI for Science」计划:打造下一代科学工具
  • 2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
  • 从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
  • 宇树科技官宣:年内提交IPO,或将冲刺科创板
  • 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
  • 语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
  • 北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
  • 原子思维上线!Agentic Deep Research再进化:推理更深、答案更准
  • 【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
  • Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
  • USO:鱼与熊掌亦可兼得,字节跳动提出统一框架,完美融合主体与风格生成
  • 刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
  • IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
  • iPhone 17定价曝光,仅Pro涨价;李斌:4季度实现月卖5万台车;COD「使命召唤」大电影官宣|极客早知道
  • 一张卡片,不仅 AI 了我的工作,还摸清了我的八字和 MBTI?|AI 上新
  • 马斯克曝终极AI计划!特斯拉堵上80%身家:500亿机器人打工,人类坐等拿钱
  • 别错过这场AGI风暴!清华人大等AI大佬集结,剑指数字和物理世界进化
  • AI杀死首个世界名校?全球TOP 3「翻译界哈佛」倒闭,毕业校友成绝版
  • 无惧AI失业潮的「铁饭碗」,微软揭秘了!能干到退休
  • 为什么在小红书里的「电商」,长成了「市集」的模样
  • 开学&教师节双重豪礼,英博云算力低至8毛8/卡时,赶紧薅起来
  • 苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
  • Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
  • 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升
  • 结构高度合理、具备理想特性,华东师大等提出分子生成新方法,协同生成原子与化学键
  • ICML 2025 | 从联合空间到文本空间:测试时增强跨模态检索新范式
  • 经典机械物理模型 × 深度学习:揭开神经网络特征学习的秘密
  • ACM MM Asia火热征稿中!低年级PhD友好,不卷SOTA只看新意
  • 博士申请 | 北京大学计算机学院-中国电信招收计算机视觉方向联培博士生
  • 冲上热搜!美团大模型,靠「快」火了
  • DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
  • ICCV 2025 | InterVLA:聚焦第一视角感知决策,大规模通用人-物-人交互数据集与评测基准
  • AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
  • 性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
  • 广告,救不了 AI 搜索
  • 14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
  • 自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
  • 全球机器翻译比赛拿下30个语种第1名,腾讯混元翻译模型开源
  • 腾讯回应米哈游起诉:QQ用户资料不能随便给;特斯拉首曝Cyber SUV;外卖「小电驴」须装北斗定位|极客早知道
  • NeurIPS近3万投稿爆仓,强拒400篇论文!博士疯狂内卷,AI顶会噩梦来袭
  • 同行评审濒临崩溃!一篇审稿报告450美元?科学家不再愿意「用爱发电」
  • CEO卷款夜逃迪拜,15亿美元独角兽爆雷!700印度码农冒充AI,坑惨微软
  • 刚刚,DeepSeek最新发文!V3/R1训练细节全公开,信息量巨大
  • GRPO偷偷优化Pass@K?从0-1奖励到无偏策略,DeepMind揭示全面解法
  • 让图像会说话!视觉Token注入CLIP语义,TokLIP重塑多模态理解与生成
  • EMNLP 2025|人声解耦×伴奏对齐!浙大VersBand打造提示可控的歌曲生成框架
  • 北京内推 | 联想研究院AI Lab招聘大模型算法实习生
  • 快手的 2025:一个4亿人社区的新陈代谢,与2600万人的变现之路
  • 开学了:入门AI,可以从这第一课开始
  • OpenAI大神:人工智能导论课程停在15年前,本科首选该是机器学习导论
  • 中国电竞,已经是 Next Level!
  • NeurIPS 2025:高分论文也可能被拒,只为保住那25%左右的接收率?
  • DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
  • 把实验与计算「缝」到一张「地图」上:AI让材料发现路线更直观、可解释
  • 字节跳动提出OneReward:一个奖励模型统一多任务图像生成,效果全面超越PS!
  • 从「卖设备」到「建关系」,AI 硬件的破局点到底在哪里?
  • 首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
  • 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
  • 科研智能体「漫游指南」—助你构建领域专属科研智能体
  • 今起 AI 生成内容必须亮明身份;大疆双摄 Pocket 4 曝光;微信公号留言广告上线
  • GPT-5冷酷操盘,狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默
  • 柳叶刀惊曝:AI让医生6个月「废功」20%,癌症检出率崩盘!
  • 硅谷炸雷!xAI创始老哥携机密叛逃OpenAI,马斯克:他上传了整个代码库
  • 143亿美金买来一场空!小扎向谷歌OpenAI低头,史上最大AI赌注失速
  • 北京内推 | 微软DKI大模型团队招聘大模型/Agent/广告推荐方向研究型实习生
  • 动态压缩CoT!浙大×蚂蚁发布LightThinker,让模型推理“轻起来”
  • EMNLP 2025 | 看图就越狱!视觉上下文攻击:“图像语境”一招撬开多模态大模型
  • 性能超越GPT-5,成本减30%!大模型装上智能路由,Avengers-Pro刷新性价比极限
  • POSE:100倍加速视频生成,腾讯混元提出单步对抗平衡蒸馏框架
  • 那天,AI大模型想起了,被「失忆」所束缚的枷锁
  • LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
  • AI智能体是否能预测未来?字节跳动seed发布FutureX动态评测基准
  • 混乱、内耗、丑闻:Meta考虑向Google、OpenAI低头
  • 这个荒诞网站藏着30个AI「鬼点子」,但我觉得它活不长
  • R-Zero 深度解析:无需人类数据,AI 如何实现自我进化?
  • DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
  • CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准
  • 李斌:用户不买蔚来40%原因怕倒闭;SpaceX 首个「30 手」火箭诞生;地平线征程智驾芯片突破 1000 万套
  • Ilya信徒逆袭!23岁天才被OpenAI开除,靠165页AI预言书撬动15亿美金
  • 华裔女学霸揭秘Claude Code,一人带六个AI开干!编程范式彻底被颠覆
  • 最后通牒!Claude聊天/代码「默认」全喂AI训练,你的隐私能被用5年
  • 被低估的GPT-5!OpenAI给7亿人解锁最强AI,大众智能一夜撕裂旧秩序
  • 吴泳铭的阿里新局:押注 AI 与消费,再次创业
  • ICCV 2025 AnimateAnyMesh:文本驱动通用网格动画新范式,实现高效高质量4D内容生成
  • 理想也到了「十字路口」
  • 21.98万起!小鹏P7要让Model 3和小米SU7睡不着觉
  • 大脑如何理解视觉信息?LLM嵌入实现场景语义的可逆解码
  • 23岁小哥被OpenAI开除,成立对冲基金收益爆表,165页论文传遍硅谷
  • 在美国,打工人越老越吃香,22-25岁新人最先被AI淘汰
  • AI应用:浮现中的AI经济
  • 清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
  • 任正非王兴兴梁文锋入选「时代 AI 百人」;小米主动召回充电宝;阿里蒋凡:淘宝闪购规模+心智超预期|极客早知道

AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」



  新智元报道  

编辑:桃子
【新智元导读】AI教父Hinton荣膺诺贝尔奖,可谓是实至名归。如今,他发表的「玻尔兹曼机」震撼演讲,已登上APS期刊。这一曾催化深度学习革命的「历史酶」,究竟讲了什么?

2024年12月8日,诺贝尔物理学奖得主Hinton登台,发表了题为《玻尔兹曼机》的演讲。

当时,斯德哥尔摩大学Aula Magna礼堂内座无虚席,全球目光都集聚于此。

他深入浅出地分享了,自己与John Hopfield利用神经网络,推动机器学习基础性发现的历程。

如今,Hinton这个演讲的核心内容,于8月25日正式发表在美国物理学会(APS)期刊上。

论文地址:https://journals.aps.org/rmp/pdf/10.1103/RevModPhys.97.030502

1980年代,并存两种颇具前景的梯度计算技术——

一种是,反向传播算法,如今成为了深度学习核心引擎,几乎无处不在。

 

另一种是,玻尔兹曼机器学习算法,现已不再被使用,逐渐淡出人们的视野。


这一次,Hinton的演讲重点,就是「玻尔兹曼机」。

一开场,他幽默地表示,自己打算做一件「傻」事,决定在不使用公式的情况下,向所有人解释复杂的技术概念。


霍普菲尔德网络
找到能量最低点


什么是「霍普菲尔德网络」(Hopfield Network)?

Hinton从一个简单的二进制神经元网络入手,介绍了「霍普菲尔德网络」的核心思想。

每个神经元只有1或0两种状态,最重要的是,神经元之间通过对称加权连接。

整个神经网络的全局状态,被称为一个「配置」(configuration),并有一个「优度」(goodness)。

其「优度」是由所有活跃神经元之间权重的总和决定,如上图所有红色方框,权重加起来等于4。

这便是该网络配置的优度,而能量(energy)是优度的负值。

「霍普菲尔德网络」的全部意义在于,每个神经元通过局部计算决定如何降低能量。

在这里,能量就代表「劣度」(badness)。因此,开启还是关闭神经元,全凭总加权输入的「正负」。

通过不断更新的神经元状态,网络最终会稳定在「能量最低点」。

但它并非是唯一的能量低点,因为「霍普菲尔德网络」可以有很多能量最低点,最终停留在哪一点,取决于起始状态,也取决于更新哪个神经元的随机决策序列。

如下,便是一个更优的能量最低点。开启右边神经网络,其优度是3+3-1,能量为-5。

「霍普菲尔德网络」的魅力在于,它可以将能量最低点与记忆关联起来。

Hinton生动地描述道,「当你输入一个不完整的记忆片段,然后不断应用二进制决策规则,网络就能补全完整记忆」。

因此,当「能量最低点」代表记忆时,让网络稳定到能量最低点的过程,就是实现所谓的「内容可寻址存储」。

也就意味着,仅激活项目一部分访问存储器中的某个项目,然后运用此规则后,网络就会将其补全。


不仅记忆存储
还能解释「感官输入」


接下来,Hinton进一步分享了,自己与Terrence Sejnowski(霍普菲尔德学生)对「霍普菲尔德网络」的创新应用——

用它来构建对感官输入的解释,而不仅仅是存储记忆。


他们将网络分为了「可见神经元」和「隐藏神经元」。

前者接收感官输入,比如一幅二进制图像;后者则用于构建对该感官输入的解释。网络的某个配置的能量,代表了该解释的劣度,他们想要的是一种低能量的解释。

Hinton以一幅经典的模棱两可的线条画——内克尔立方体(Necker cube)为例,展示了网络如何处理视觉信息的复杂性。

如下这幅画,有的人会将其看作是「凸面体」,有的人会看到的是「凹面体」。

那么,我们如何让神经网络,从这一幅线条画中得出两种不同的解释?在此之前,我们需要思考的是:图像中的一条线,能告诉我们关于三维边缘的什么信息?

视觉诠释:从2D到3D


想象一下,你正透过一扇窗户看向外面的世界,然后在玻璃上,把看到的景物轮廓描绘出来。

这时候,窗上的那条黑线,其实就是你画出来的一条边。

而那两条红线呢,就是从你眼睛出发,穿过这条黑线两端的视线。

那么问题来了:现实世界中,到底是什么样的边缘形成了这条黑线?

其实可能性非常多,所有不同的三维边缘,最终都会在图像中产生同样的线条。

所以,视觉系统最头疼的是,怎么从这一条二维的线反推回去,判断现实中,到底那条边才真正存在?

为此,Hinton和Sejnowski设计了一个网络,可以将图像中的线条,转化为「线神经元」的激活状态。

然后,通过兴奋性连接与代表「三维边缘神经元」相连(绿色),并让其相互抑制,确保一次只激活一种解释。

如此一来,就体现了许多感知光学方面的原理。

接下来,Hinton又将此方法应用于所有的神经元,问题是,应该激活哪些边缘神经元呢?

要回答这个问题,还需要更多信息。

人类在诠释图像时,都会遵循特定的原理。比如,两条线相交,假设它们在三维空间中,也在同一点相交,且深度相同。

此外,大脑往往倾向于将物体视为直角相交。

通过合理设置连接强度,网络可以形成两个稳定的状态,对应「内克尔立方体」的两种三维诠释——凹面体和凸面体。

这种视觉诠释方法,又带来了两个核心问题:

  • 搜索问题:网络可能陷入局部最优,停留在较差的解释上,无法跳到更好的解释

  • 学习问题:如何让网络自动学习连接权重,而不是手动设定


搜索问题:带噪声神经元


对于「搜索问题」,最基本的解决方法——引入带有噪声的神经元,即「随机二进制神经元」。

这些神经元状态为「二进制」(要么是1,要么是0),但其决策具有很强的概率性。

强的正输入,就会开启;强的负输入,就会关闭;接近零的输入则引入随机性。

噪声可以让神经网络「爬坡」,从较差的解释跳到更好的解释,就像在山谷间寻找最低点。


玻尔兹曼分布+机器学习


通过随机更新隐藏神经元,神经网络最终会趋近于所谓的「热平衡」(thermal equilibrium)。

一旦达到热平衡,隐藏神经元的状态就构成了对输入的一种诠释。

在热平衡下,低能量状态(对应更好解释)出现概率更高。

以内克尔立方体为例,网络最终会倾向于选择更合理的三维诠释。

当然,热平衡并非系统停留在单一状态,而是所有可能配置的概率分布稳定,遵循着玻尔兹曼分布(Boltzmann distribution)。

在玻尔兹曼分布中,一旦系统达到热平衡,其处于某个特定配置的概率,完全由该配置的能量决定。

并且,系统处于低能量配置的概率会更高。

要理解热平衡,物理学家们有一个诀窍——你只需想象一个由海量相同网络组成的巨大「系综」(ensemble)。

Hinton表示,「想象无数相同的霍普菲尔德网络,各自从随机状态开始,通过随机更新,配置比例逐渐稳定」。

同样,低能量配置,在「系综」中占比更高。

总结来说,玻尔兹曼分布的原理在于:低能量的配置远比高能量的配置更有可能出现。

而在「玻尔兹曼机」中,学习的目标,就是要确保当网络生成图像时,本质上可以称为「做梦、随机想象」,这些与它在「清醒」时感知真实图像所形成的印象相吻合。

若是可以实现这种吻合,隐藏神经元的状态,便可以有效捕捉到图像背后的深层原因。

换句话说,学习网络中的权重,就等同于弄清楚如何运用这些隐藏神经元,才能让网络生成出看起来像真实世界的图像。

「玻尔兹曼机」学习算法


针对如上「学习问题」,Hinton与Sejnowski在1983年,提出了「玻尔兹曼机学习算法」进而解决了权重调整问题。

论文地址:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf

该算法主要包含了两个阶段:

  • 清醒阶段:向网络呈现真实图像。将一幅真实图像「钳位」到可见单元上,然后让隐藏单元演化至热平衡。对同时开启的神经元对,增加连接权重。

  • 睡眠阶段:让网络自由「做梦」。所有神经元随机更新至热平衡。对同时开启的神经元对,减少连接权重。


这一简单的算法,通过调整权重,提高了神经网络在「做梦」时生成的图像与「清醒」时感知图像之间的相似度。

学习过程的本质,就是在降低网络在清醒阶段,从真实数据中推导出的配置所对应的能量。

与此同时,提高它在睡眠阶段自由生成的配置所对应的能量。

正如Hinton所言,「你本质上是在教导这个网络:要相信清醒时所见,而不信睡梦中所梦」。


核心创新:相关性差异


如上所见,「玻尔兹曼机」的最大亮点在于,权重调整所需的信息都蕴含在两种相关性差异中——

网络在「清醒」(观察真实数据)时两个神经元共同激活的频率,与当网络自由「做梦」时,它们共同激活的频率,这两者之间的差异。

令人惊叹的是,这两种相关性差异,足以告诉某个权重关于所有其他权重的一切信息。

与反向传播(backpropagation)算法不同,「玻尔兹曼机」无需复杂的反向通路传递「敏感度」——一种完全不同的物理量信息。

「反向传播」算法依赖的是,前向通路传递神经元活动,反向通路传递敏感度;「玻尔兹曼机」仅通过对称连接性和相关性差异完成学习。

然而,「玻尔兹曼机」的最大瓶颈是——速度。

当权重较大时,达到热平衡极其缓慢,若是权重很小,这个过程才得以加速完成。

整整17年后,Hinton突然意识到,通过消除隐藏单元之间的连接来对「玻尔兹曼机」进行限制,就可以得到一个快得多的学习算法。

由此,受限玻尔兹曼机(RBM)诞生了。

这一方法将输入「钳位」在可见单元上,大幅简化了「清醒」阶段的计算,仅需一步即可达到热平衡。

不过,「睡眠」阶段仍需要多次迭代,才能达到热平衡。

为此,Hinton引入了「对比散度」(contrastive divergence)的方法,通过以下步骤实现了加速学习:

  1. 将数据输入可见单元。

  2. 并行更新所有隐藏神经元,使其与数据达到平衡。

  3. 更新所有可见单元以得到一个「重构」版本。

  4. 再次更新所有隐藏神经元。

  5. 停止。


「受限玻尔兹曼机」也在实践中取得了显著成果。

比如,Netflix公司曾使用RBM,根据用户偏好推荐电影,并赢得了用户偏好预测大赛。

然而,仅靠彼此不相连的隐藏神经元,是无法构建出识别图像中的物体/语音中,单词所必需的多层特征检测器。

为此,2006年,Hinton进一步提出了「堆叠RBM」的方法。

堆叠RBM


通过以下三步,就可以实现堆叠RBM:

  1. 用数据训练一个RBM。

  2. 将该RBM的隐藏层激活模式作为数据,用于训练下一个RBM。

  3. 持续这个过程,以捕捉日益复杂的关联。

在堆叠了这些玻尔兹曼机之后,可以将它们视为一个前馈网络,忽略其对称连接,只使用单向的连接。

由此,这创建了一个特征的层级结构:

  • 第一隐藏层:捕捉原始数据中相关性的特征。

  • 第二隐藏层:捕捉第一层特征之间相关性的特征。

  • 以此类推,创建出越来越抽象的表示。

等所有堆叠完成后,可以再添加一个「最终层」进行监督学习,比如分类猫和狗的图像。

这时,神经网络展现出两大优势——

  • 学习速度远超随机初始化:因其在预训练中,已学习到了用于建模数据结构的合理特征。

  • 网络的泛化能力也更好:大部分学习在无监督情况下进行,信息从数据相关性中提取。


历史的「酶」


2006-2011期间,Hinton、Bengio、LeCun等实验室研究人员,都在使用「堆叠RBM」预训练前馈神经网络,然后再进行反向传播微调。

直到2009年,Hinton的学生George Dahl和Abdel-rahman Mohamed证明:

「堆叠RBM」在识别语音中的音素片段方面,效果显著由于当时所有的方法。


这一发现,彻底改变了整个语音识别领域。

到了2012年,基于「堆叠RBM」的系统,在谷歌安卓设备上大幅改善了语音识别性能。

论文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38131.pdf

然而,不幸的是,一旦证明了「堆叠RBM」预训练的深度神经网络的潜力,研究人员很快开发了其他初始化权重的方法。

于是,「玻尔兹曼机」逐渐退出历史主流。

最后,Hinton做了一个非常生动形象的比喻:

但如果你是化学家,你就会知道「酶」是非常有用的东西。  


「玻尔兹曼机」就像化学中「酶」,催化了深度学习的突破,一旦完成这个转变,酶就不再被需要。  


所以,不妨把它们看作是「历史的酶」。


不过,Hinton认为,利用「睡眠」阶段的「反学习」(unlearning),从而得到一个更具生物学合理性、避免反向传播的非对称通路的算法。

到目前为止,他依旧坚信:有一天搞明白大脑如何学习的时候,一定会发现,睡眠中「反学习」绝对是关键一环。

参考资料:
https://singjupost.com/transcript-of-nobel-prize-lecture-geoffrey-hinton-nobel-prize-in-physics-2024/  
https://journals.aps.org/rmp/abstract/10.1103/RevModPhys.97.030502 
https://www.nobelprize.org/uploads/2024/12/hinton-lecture-1.pdf



<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652624758&amp;idx=1&amp;sn=b2abae8c29c3db121911b6076b42681f&amp;chksm=f0a1aa4b49cd6d6f63a6838716b7de36f45752e302ebd728cf0dc4d0627281ee1626a53ab725&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/uXDOr60ST4&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们