Google 创始人谢尔盖·布林回归,直面 Gemini、Google、AGI 若干问题

整理丨王轶群
出品丨AI 科技大本营(ID:rgznai100)

隐退江湖四年的谷歌联合创始人谢尔盖·布林(Sergey Brin,以下简称布林)因为谷歌在大模型之战的大失利而亲赴前线,深入谷歌的大模型 Gemini 的研发工作,继我们看到布林亲自给 Gemini 写代码、经常加班到凌晨的传闻之后,布林本人在 Gemini 黑客松现身,对一系列问题进行了回应。

在近40分钟的演讲交流中,布林与开发者们共同聊了聊Gemini开发内幕、AGI,以及AI对社会变革的看法和开发者们所关注的 AI 之于谷歌的影响。有谷歌前研究科学家晒出与布林的现场合影,并表示非常受启发。布林此举引起了全网关注和科技圈的热议,网友纷纷呼吁他回归重新执掌谷歌。与此同时,谷歌的现任CEO桑达尔・皮查伊(Sundar Pichai)则面临着下台的呼声。

本文对布林与开发者现场的交流进行了梳理(部分内容有删减),让我们一起看看这场启发与争议并存的AI极客们与谷歌传奇创始人的思维碰撞。

直面 Gemini 的争议问题

在去年发布的的Gemini技术报告中,布林的名字就出现在核心贡献者的名单内。作为核心贡献者之一,他在揭秘Gemini的开发时,对现场的开发者们展示出了极大的坦诚,他率先表示:“Fire away(开火吧,尽管说)!”,由此展开了一系列关键问题的讨论。

在去年的Google I/O大会上,Pichai为我们带来了Gemini,然而一如Bard发布后的窘况,Gemini发布之后也遇到了诸多翻车问题。而其最新的Gemini 1.5 Pro发布伊始,其风头便被OpenAI的Sora完全盖过。布林表示,Gemini的发布有着些许意料之外,它在开发团队内部被称为金鱼(Goldfish):

这是个具有讽刺意味的名字,因为金鱼记忆很短。但当我们在训练这个模型的时候,我们并没想到它会出乎意料地强大,或者拥有它所具备的所有功能。实际上,这只是我们规模扩展实验的一部分。但当我们看到它能做什么时,我们就在想:嘿,不要再等待,希望全世界都能尝试起来。我很感激在座的各位都在这里试一试。

此前,Gemini绘画在种族问题上翻车。面对现场开发者对Gemini图像生成事件的提问,布林诚恳认错:

我们在图像生成上确实出了问题。我认为这主要是由于没有进行彻底的测试。我想这些图片促使很多人深入测试了基础文本模型。文本模型有两个独立的效应。
一方面,坦白讲,如果你深入测试任何文本模型,无论是我们的、ChatGPT,还是你手头的,它可能会说出一些相当奇怪、看似极左的言论。任何模型,只要你尝试得足够深入,都可能被诱导进入那种情况。但也要公正地说,那个模型中有一些我们还无法完全理解的部分,比如为什么在很多情况下,它的输出结果会偏向“左”。这并不是我们的初衷。但如果你从上周开始尝试的话,我们已经覆盖的测试案例至少应该有 80% 的提升。所以,我希望你们都去试一试。这应该会产生很大的影响。
你们正在试用的这个版本Gemini 1.5 Pro,并没有在公众端的应用中,我们曾经的 Bard,并不应该有太大的影响,除了一个普遍的情况:如果你对任何 AI 模型进行彻底的测试,总会出现一些奇特的边缘情况。但即使这个版本并未进行全面的测试,我们并不期待它会有强烈的特定倾向。我想我们可以尝试一下。尽管今天我们更期待的是试验长上下文和一些技术特性。

深入模型技术与安全

在现场,布林多次提及了他对AI大模型发展的兴奋与期待。他的再次公开露面,将他对AI的热情尽现,他表示自己很热衷于研究AI、乐于使用AI工具,并持续精进AI大模型。

Q:随着当前多模态大模型的发展,谷歌是否考虑视频聊天GPT?

布林:多模态模型上无论是输入还是输出,都非常令人兴奋。在视频、音频上,我们进行了早期实验,这是一个令人兴奋的领域。你们还记得那个小鸭子的视频吗?虽然视频中已经充分声明了它并不是实时的,它还是让我们陷入了麻烦。我们确实做过一些工作,比如审核图片,逐帧分析,目前我觉得还没有现成的实时展示。

Q:你是否亲自为某些项目编写代码?

布林:说实话,我并未真正编写过代码。虽然这并不是你会觉得非常厉害的代码,但有时我还是会调试一下,努力理解一个模型的工作方式,或者在不同的区域分析一下性能。尽管这只是些小事情,但让我感觉参与其中。由于我现在的编程技能有些生疏,我会使用AI机器人来帮我编写代码,其工作效果出奇得好。所以,你应该会对此感到满意。

Q:作为 Gemini 上开发应用的开发者,我们想知道你对哪类应用最感兴趣?

布林:我最感兴趣的是哪种应用程序?我认为现阶段只是获取信息。对于我们试图编辑的版本,1.5 Pro,长上下文测试是我们真正在尝试的东西。无论你是在转储大量代码还是视频,我刚看到现场有人这样做……我真的不明白模型是如何做到这一点的。

Q:你认为我们是否能够真正理解这些模型是如何工作,或者它们仍然是黑匣子?

布林:我认为可以学会去理解它。当你面对这些模型时,你可以测试出一千种不同的性能。一方面,它能做到是非常令人惊讶的。另一方面,如果你想了解某个特定的能力,你可以回溯,我们可以查看在代码和视频之间,每一层的注意力是如何转移的。

就我个人而言,我不知道研究人员在做这种事情上走了多远,但需要大量的时间和研究才能真正剖析为什么一个模型能够做到一些事。我认为我们可以理解它,也许已经有人正在理解它,但大部分的精力都在寻找模型的错误之处,而不是揭示它失败的原因。

Q:在计算机科学中,一个概念叫反射性编程,也就是程序能够查看甚至修改自己的源代码。在AGI文献中,有递归自我改进这样的概念。那么,你对于极长的上下文窗口以及语言模型能够修改自己的提示有什么看法呢?这些又与自主性和通用人工智能的建设有何关联?

布林:我认为让这些真正的自我改善是非常令人兴奋的。记得在读研究生时,我写了个游戏,它就像你正在穿越一个迷宫,但你射击的墙壁对应的是内存的位,并会翻转这些位。游戏的目标是尽快让它崩溃,这虽然不能直接回答你的问题,但这是一个自我修改代码的例子,只不过它并没有特别有用的目的。不过,我还是会让人们进行游戏,直到电脑崩溃。

我认为开环(open loop)控制可能会对某些非常有限的领域起作用,若没有人为干预引导,我相信它可以实现一定程度的持续改进。但我认为我们暂时还无法在一些重要的领域实现这一点。首先,一百万长度的上下文对于大型代码库来说还远远不够,对于启动整个代码库可能有难度,但你可以先进行检索,然后进行修改编辑。我个人可能没有进行足够的实践,但至少在目前,我还没有看到复杂的代码会自我迭代并进行改进,不过这的确是一件令人振奋的事,借力人类的辅助,绝对有能力做到。比如,我现在就会使用 Gemini 去尝试处理一些 Gemini 的代码,但还没有进行过非常开环的深度工作。

Q:训练成本非常高,你对此怎么看?

布林:成本肯定很高,这是像我们这样的公司必须应对的事情,但其长期效用是无可比拟的。就像如果你用人类生产力的水平来衡量它,若一周内为某人节省了一个小时的工作时长,那么这个小时就很有价值了。有很多人正在或者将要使用,这是对未来的一个很大的赌注。

Q:我们每天都要处理数以千计的客服聊天记录,你说过 GPT-4 是唯一真正有价值的,现在看起来 Gemini 也是一种非常有效的方法。非常感谢你的付出。看起来它的成本更低,效果甚至更好,响应非常迅速。所以我想问的是,它会一直保持这个水平吗,还是你们计划在将来提高价格呢?

布林:我们不会。实际上,我并没有掌握定价的信息。我预计我们不会提高价格,有两个主要的原因。首先,我们在模型推理方面一直在进行优化,每个月都有新的想法和优化方法累积起来,比如有 10% 的改进,有 20% 的改进,这样积累起来就可以产生显著的效果。其次,我认为我们的TPU在进行模型推理方面表现得非常好,虽然它们不如GPU,但对于某些特定的工作负载,TPU更适配同时,另一个重要的影响因素是我们能够使生成的模型越来越小而且更有效,无论是架构的变化,训练的变化,还是其他的一些因素,都使得模型即使在同样的规模下也越来越强大,所以我不认为价格会上涨。

Q:是在设备上进行模型训练吗?

布林:是的,在设备上运行的模型,我们已经将其部署到安卓版的 Chrome和Pixel手机,我认为即使是Chrome现在也运行了一个相当不错的模型。我们刚刚开源了Gemma,这是一个非常小的模型,它做到低延迟的,不依赖网络连接,而且小模型也可以调用云端的大模型,所以我认为在设备上运行模型真的是一个很好的选项。

Q:你认为这一代的科技有哪些垂直行业会受到很大影响,创业公司应该考虑去挖掘一下这些行业?

布林:哪些行业有这么大的机会?我认为这很难预测。人们会想到一些明显的行业,比如客户服务,冗长文档的分析,以及工作流程自动化,这些都是显而易见的。但我认为也会有不明显的领域, 这些我无法预测,尤其是看到这些多模态模型,以及它们所拥有的令人惊讶的能力时。这就是你们所有人在这里的原因,正是你们这些富有创造力人,要来找出这些机会所在。

Q:你是如何展示 AI 在医疗保健和生物技术方面的应用的?

布林:AI 在医疗保健和生物技术方面有很多应用场景。在生物技术方面,比如研究酒精等物质,理解生命的基本机制,你可以看到 AI 在这方面的应用越来越广泛,无论是研究分子的物理结构,还是阅读和总结外部的科研文章。从患者的角度来看,虽然在这个领域我们还有很长的路要走,因为我们不能仅依赖 AI,AI 也会犯错误。但我认为未来 AI 可以提供更个性化的医疗服务,AI 能够更深入地研究个体,包括他们的病史,扫描结果等,可能在医生的辅助下。实际上,这可能只是更准确的诊断,更优质的建议等等。

Q:你们是否在致力于研究非Transformer架构,以更好地进行推理和规划?

布林:我正在关注非Transformer架构。我认为有很多种方式可以进行改进,但我相信大多数人还是认为这些改进仍然基于Transformer架构。我相信在你们公司内肯定有人对此有更深的理解。尽管过去六七年间,Transformer取得了很大的进步,但这并不意味着未来不会出现新的颠覆性架构。另外,可能只是一些逐步的改变,比如稀疏性等,这些仍然是Transformer的一部分,也可能带来革命性的变化。所以,我没有一个确定的答案。但是,对于推理类问题是否存在某种瓶颈呢?使用Transformer有瓶颈吗?是的。有许多理论研究揭示了 Transformer的局限性。我不知道这些理论局限性如何应用到现代的 Transformer上,因为现代的Transformer通常不满足这些理论工作的假设,所以可能并不适用,但我也可能会尝试其它架构,这也是很酷的事情。”

Q:我们能在多大程度上乐观地引入文本生成模型和其产生幻觉的能力,以及你如何看待传播中潜在的伦理问题?

布林:这确实是当前面临的一个重大问题。随着时间的推移,我们减少了人工智能的误判。我非常期待误判率能够接近零的突破。但是,我们不能仅依赖突破。我们将继续做各种能做的事,将错误率持续降低。显然,你不希望你的 AI 机器人编造事实,但他们也可能被误导。这涉及到许多复杂的政治问题,关于不同的人如何看待真假信息。这引发了一场广泛的社会讨论。另一个可能需要考虑的问题是,AI 是否可能故意代表他人传播假信息。从这个角度来看,制造一个错误频发的 AI 其实是很容易的。你完全可以通过调整任何一个开源文本模型,让其生成各类错误信息。因此,我认为检测人工智能生成的内容是重要领域,我们也在致力于此,至少可以判断出某些内容是否由 AI 生成。

Q:如果很多人开始使用这些智能体(agent)来编写代码,我想知道这将如何影响 IT 安全。你可能会争辩说,就像我们在编写涵盖所有情况的测试套件方面做得更好一样。您对此有何看法?对于像 IT 安全这样的普通程序员来说,需要有人为用户检查人工智能所编写的代码吗?

布林:确实你们都在选择职业,我想你应通过算命先生来回答这个问题。不过今天使用人工智能来编写单元测试确实很简单,这是人工智能做得很好的事情之一。我的希望是人工智能会让代码更安全,而不是更不安全。在安全领域,人们懒惰的对此有影响,而人工智能擅长的就是不懒惰。因此,人工智能的安全性可能是一个净赌注。但我不会为此阻碍你从事 IT 安全职业。

AGI与谷歌的未来

对于AGI的构建和未来的畅想,谢尔盖·布林表现出难以掩饰的兴奋。业内普遍认为,人型机器人将是AGI的最佳载体。现场开发者也提出了有关人型机器人发展的问题。对此,谢尔盖表示他本人将来不会投入硬件研究,但看好人型机器人的未来。

Q:你想构建AGI吗?

布林:不同的人对此有不同的观点。但对我来说,推理方面真的很令人兴奋和惊喜的。我退休了,只是因为人工智能的发展。这太令人兴奋了。作为计算机科学家,光是看到这些模型年复一年能做的事,就令人惊喜。所以答案是肯定的。

Q:目前有没有类似人形机器人方面的进展?就像此前Google X在2015至2016年间颇有成果。

布林:实际上,我们这些年来做过很多类人机器人的研究,也收购和出售了许多机器人公司。现在有很多公司都在进行类人机器人的研究,我们内部也有一些团队在从事各种形式的机器人研究。那么我对此有何看法?老实说,我不太清楚,因为在这波新的 AI 浪潮之前,我主要是在做应用方面的工作,那时的重点更多在硬件项目上。但我发现,无论是从技术还是商业角度来看,硬件的难度要大得多。我并不是阻碍人们制造硬件,肯定需要有人来做。与此同时,软件和人工智能发展得如此迅速,对我而言就像是火箭一般。如果我被制造当下的硬件所分心,那可能不是最好的选择,相比之下,下一级的 AI 可能会在未来为我设计一个更加先进的机器人。那真是太棒了。在 Google,有很多人正致力于此。

Q:谷歌的广告收益和商业模式会有什么变化?

布林:在谷歌的所有人中,我并不太担心商业模式的转变。25 年的时间里,我们为每个人免费提供世界一流的信息搜索。这得到了广告的支持。在我看来,这很棒。这对世界来说是件好事,能让非洲孩子和美国总统一样容易获取基本信息。与此同时,我预计商业模式将随着时间的推移而发展。也许依然是广告,因为无论哪种广告类型效果都会更好,人工智能可以更好地定制广告付费模式。即使移步至Gemini Advanced,也有公司的广告付费模式。本质上,AI正在提供巨大价值。取代人工智能所需的脑力劳动,无论是时间、劳动力还是财产等,都是巨大的。在搜索领域,也是同样的道理。所以只要有巨大的价值产生,我们就找到清晰的商业模式。

Q:很久以前谷歌推出了谷歌眼镜,现如今苹果有Vision Pro。我认为谷歌眼镜的推出在之前还为时过早,你会考虑再试一次吗?

布林:我有一些谷歌眼镜,但我觉得我之前做了一些错误的决定。是的,它肯定是很早的,也许在技术整体发展的早期,我之前试图把它作为一个产品来推动,但事后看来它更像是一个原型。我对当时对消费硬件的供应链知之甚少,还有一堆其他的想法。我仍然喜欢这种轻量级、极简的显示屏,你可以整天佩戴,而不是我们现在使用的那些笨重的设备。这只是我个人的偏好。不论是Apple Vision还是Oculus,我都对它们的性能印象深刻。

Q:你是否认为 Gemini 在扩展能力方面有可能向3D或者空间计算,甚至是模拟世界的方向发展?特别是在超过了谷歌眼镜之后,它已经拥有了一些相关的产品,比如谷歌地图、街景、AR核心等等。你是否认为这些产品之间存在某种协同效应?”

布林:这是一个好问题。我之前并未考虑过这个问题,我们没有理由不在其中加入更多类似的3D元素,就像是另一种3D数据模式。所以可能会有一些有趣的事情发生。我也可以尝试开启其他功能。顺便说一下,也许有人已经在 Gemini 中尝试这样做了。

Q:你认为谷歌搜索将走向何方?

布林:对于搜索这是一个极其激动人心的时刻,因为通过人工智能,搜索引擎回答问题的能力要强太多。极强的检索能力发展机遇,诞生在检索条件更具体的情况。比如,你会问一个非常专业的问题,或与你个人情况有关的问题,这个问题此前在网上没有人输入过。毕竟,对于万人输入过并深入思考过的问题,检索答案并不是什么难事。但对于你关心的独特且具体的问题,这是一个巨大的机遇,你可以想象你眼中的各种产品以不同方式去交付呈现。在这种情况下,人工智能是一个亲切的邻居,它只会做得更好。

推荐阅读:

Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石

为了“改”游戏翻遍《电脑报》、备战高考还开发了套软件?这是一个不为人知的林咏华

李飞飞亲述:我所遭遇过的性别歧视

文章原文

Continue ReadingGoogle 创始人谢尔盖·布林回归,直面 Gemini、Google、AGI 若干问题

李彦宏:程序员职业将不复存在,会说话就能当程序员;字节辟谣暴雪前CEO洽购TikTok;ChatGPT日耗电超50万度|极客头条

「极客头条」—— 技术人员的新闻圈!

CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

一分钟速览新闻点!

  • 李彦宏称「程序员」职业将不复存在:会说话就能当程序员

  • 字节跳动回应暴雪前 CEO 洽购 TikTok:不实

  • 索尼回应手机业务退出中国传闻:正在稳健运营中

  • 阿里灵犀互娱换帅:周炳枢将接任詹钟晖成为负责人

  • ChatGPT日耗电超50万度

  • 任天堂与 Yuzu 模拟器开发者和解,用户积极帮忙维权

  • 扎克伯格:高分辨率让苹果 Vision Pro 头显付出了更多的代价

  • 谷歌新办公大楼龙鳞房顶设计太「超前」,导致 Wi-Fi 信号非常差

  • 黄仁勋:即使竞争对手的 AI 芯片免费提供,也无法击败英伟达方案

  • OpenAI CEO Altman 将重新加入董事会

  • Canonical 诞生二十周年

  • Vue 团队开源 Rolldown 打包工具

国内要闻

李彦宏称「程序员」职业将不复存在:会说话就能当程序员

“2024年,我最想推动的一件事,是让每个人都具备程序员的能力。”3月9日,百度创始人、董事长兼首席执行官李彦宏在央视《对话》·开年说的访谈中指出,以后不会存在“程序员”这种职业了,因为只要会说话,人人都会具备程序员的能力。“未来的编程语言只会剩下两种,一种叫做英文,一种叫做中文”。

在中文上,文心大模型已经超过了GPT-4。“比如写一首诗,很多大模型都能写,但如果我要求写一首《沁园春》词牌的词,那GPT就完全搞蒙了,它不知道第一句话是4个字还是5个字。”

访谈中被问道“百度是否已经熬过万丈孤独”时,他说道,“越来越接近熬过去了”,“因为看到曙光,已经走过最黑暗的阶段,看到各种各样的可能性扑面而来,所以心情非常兴奋。”(百度公众号)

字节跳动回应暴雪前 CEO 洽购 TikTok:不实

3月10日,字节跳动在今日头条官方账号表示,媒体转发外媒报道称,暴雪前CEO接触张一鸣,考虑千亿美元收购TikTok。该报道不实,经核实,公司创始人张一鸣没有与任何人沟通过相关事宜。

索尼回应手机业务退出中国传闻:正在稳健运营中

传闻“索尼新款 Xperia 1 VI 和 Xperia 10 VI 手机不会在中国大陆上市”,引发外界猜测索尼手机可能将退出中国市场。但索尼官方表示,旗下在华业务包括手机正在稳健运营,对在中国的发展仍充满期待。尽管面临中国本土品牌的激烈竞争,索尼手机目前在电商平台上仍在正常销售。

阿里灵犀互娱换帅:周炳枢将接任詹钟晖成为负责人

灵犀互娱业务负责人詹钟晖(叮当)发布内部邮件宣布,将于财年末(3月31日)卸任,其岗位将由《三国志·战略版》制作人周炳枢(饼叔)接任。邮件中,詹钟晖称:“我和老陈、春娇将正式卸任大班委,交给炳枢带领的新班子,相信新班子能更好地面向未来,更扎实地践行灵犀的研发理念,将灵犀带上新高度。”(财联社)

国际要闻

ChatGPT日耗电超50万度

据《纽约客》杂志报道,OpenAI的热门聊天机器人ChatGPT每天可能要消耗超过50万千瓦时的电力,以响应用户的约2亿个请求。相比之下,美国家庭平均每天使用约29千瓦时电力,也就是说,ChatGPT每天用电量是家庭用电量的1.7万多倍。如果生成式AI被进一步采用,耗电量可能会更多。荷兰国家银行数据科学家亚历克斯·德弗里斯在一篇论文中估计,到2027年,整个人工智能行业每年将消耗85至134太瓦时(1太瓦时=10亿千瓦时)的电力。(环球市场播报)

任天堂与 Yuzu 模拟器开发者和解,用户积极帮忙维权

任天堂与 Yuzu 模拟器开发者达成和解,开发者需支付 240 万美元赔偿金并关闭业务。在诉讼过程中,一位用户向任天堂发送 93 封邮件,控诉 Yuzu 模拟器,最终促使双方和解。该用户对 Yuzu 未针对 Windows 7 优化表示不满,并向任天堂提醒有人使用 Yuzu 运行游戏备份。

扎克伯格:高分辨率让苹果 Vision Pro 头显付出了更多的代价

马克·扎克伯格认为苹果 Vision Pro 头显虽然分辨率高,但 Meta 的 Quest 设备在多方面更优。他自信 Meta 在未来几年内将推出更先进的设备,而 Quest 3 已经展现出优于 Vision Pro 的性价比、舒适度、视野、运动模糊处理、控制器精度和内容库。尽管苹果 Vision Pro 的售价远高于 Quest 3,但扎克伯格强调 Meta 的产品在多个关键方面更具优势。

谷歌新办公大楼龙鳞房顶设计太「超前」,导致 Wi-Fi 信号非常差

谷歌旧金山新办公室的员工反映,先进的龙鳞房顶设计导致 Wi-Fi 信号极差。尽管谷歌曾宣称新园区将提供先进技术和设计,但高速可靠的 Wi-Fi 并不在其中。员工不得不使用以太网电缆或手机热点,部分人甚至被建议去咖啡馆或户外寻找更好的网络连接。该园区是谷歌设计和建造的第一个园区,用于安置从事重要人工智能项目的员工,但不可靠的无线网络影响了他们的工作效率。工作人员认为,波浪式屋顶覆盖的「龙鳞太阳能表皮」是干扰 Wi-Fi 信号的原因。

黄仁勋:即使竞争对手的 AI 芯片免费提供,也无法击败英伟达方案

英伟达 CEO 黄仁勋表示,尽管竞争对手的芯片可能免费,但英伟达的 GPU 因其部署时间、性能、利用率和灵活性等方面的优势,在 AI 数据中心的总拥有成本(TCO)方面仍然具有竞争力。黄仁勋强调,英伟达的目标是保持无与伦比的 TCO 领先地位,并透露了其下一个 DGX AI 系统将采用液冷散热。

OpenAI CEO Altman 将重新加入董事会

据 The Verge 报道,OpenAI 于当地时间周五发布内容通知,宣布该公司 CEO Sam Altman 即将重新加入公司董事会。OpenAI 还同时公布了三位新的董事会成员,比尔及梅林达-盖茨基金会前 CEO Sue Desmond-Hellmann,索尼前法律高管Nicole Seligman以及 Instacart CEO Fidji Simo。OpenAI周五表示,公司计划 “加强 “针对员工的利益冲突政策,但并未详细说明,公司还将为员工和承包商设立举报热线。


程序员专区

Canonical 诞生二十周年

南非亿万富翁、第二位自费国际空间站游客 Mark Shuttleworth 在 2004 年 3 月创办了开发 Ubuntu Linux 的 Canonical 公司。很多人第一次接触 Linux 桌面发行版可能就是收到了他的公司免费寄出的光盘。基于 Debian Linux 的 Ubuntu 过去 20 年基本上是每半年(4 月和 10 月)发布一个新版本,唯一的例外是 2006 年 6 月发布的 Ubuntu 6.06,该版本是 Ubuntu 第一个长期支持版本。今天的 Canonical 已经从桌面扩大到云端,Ubuntu Linux 是最流行的云端操作系统。

Vue 团队开源 Rolldown 打包工具

3 月 8 日,Vue 作者尤雨溪在 X 平台宣布该团队正式开源 Rolldown(https://github.com/rolldown-rs/rolldown),这是一款基于 Rust 编写的 JavaScript 打包工具,专为 Vite 未来而设计。它提供了与 Rollup 兼容的 API 和插件接口,但在范围上与 esbuild 更为相似。

观点

推荐阅读:

Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石

为了“改”游戏翻遍《电脑报》、备战高考还开发了套软件?这是一个不为人知的林咏华

李飞飞亲述:我所遭遇过的性别歧视

文章原文

Continue Reading李彦宏:程序员职业将不复存在,会说话就能当程序员;字节辟谣暴雪前CEO洽购TikTok;ChatGPT日耗电超50万度|极客头条

李飞飞亲述:我所遭遇过的性别歧视

整理 | 唐小引、王启隆
出品丨AI 科技大本营(ID:rgznai100)

今天是一年一度的女性节日,祝所有在技术世界里驰骋的女性朋友们节日快乐。

在 AI 界,我们总会想起一位杰出的女性科学家,她就是美国三院院士、斯坦福终身教授李飞飞。关于李飞飞的故事我们听过许多,人们既惊叹于她在人工智能领域的诸多贡献,又很为她的励志故事所感慨万分。去年 11 月,李飞飞的自传 The Worlds I See(《我看见的世界》)英文版发布,其间以她细腻的文笔书写了自己的成长故事,尤其披露了许多可能不为人知的细节,同时讲述了人工智能领域计算机视觉革命的来龙去脉。值得一提的是,中文版在今年也将与我们见面,由中信出版集团出版。

CSDN 创始人&董事长蒋涛在读完此书后,发出了如此感慨:“感人至深而意味深长的科学家传记。人工智能新时代的到来,是因为李飞飞团队在ImageNet大规模数据集的工作取得范式突破,让神经网络算法焕发出人类大脑的智慧,这一切如何发生的?作者用亲身视角展示了突破创造的科学研究,是如何一步步传承发展,每一阶段作者和前沿的科学家们又是如何思考的,如何恰逢其时各种因缘际会而大成。对于有志于科学研究的青年还有想了解人工智能如何发展的读者,这本书都是不可多得的佳作。”

在今天这一特别的日子里,我们一起走进由李飞飞亲自讲述的关于她及人工智能的故事。


年少时光的爱与打击
李飞飞出生于北京,但在相隔千里的四川省会成都长大。这里是她母亲的老家,母亲在李飞飞的生命里有着极其重要的影响。在自传开篇,李飞飞分享了自己在 2018 年与 OpenAI 联合创始人 Greg Brockman 等一起参加美国国会听证会背后的纠结:“我是家里的独女,是父母唯一的经济支柱,同时还要担任他们与看护人员之间的翻译。想到这些,我不禁觉得真不该安排这次行程。但是,能出席这次听证会让身为移民的母亲感到无比骄傲,相比之下,疾病根本不算什么。在来美国仅仅 20 年后,她竟然可以看到自己的女儿在美国国会发表演讲,这样的机会绝对不能错过。在我的整个职业生涯中,母亲自始至终坚定地支持我,所以我相信她会坚决要求我参加听证会……母亲要求我来参加听证会是对的。我确信人工智能未来所依赖的机构范畴远远超出科学界,还包括教育机构、行动组织,当然还有政府。”

在李飞飞的生命里,父母、外祖父母对她有着极为深刻的影响:“外祖父母对我的培养方式也契合了父母的价值观。他们对我疼爱有加,但我从来不会觉得因为他们宠我,就不会管束我。他们并不认同他们这代人中盛行的重男轻女的观念,而是跟父母一样,鼓励我展开想象,并坚守原则:我首先是个独立的个体,其次才是个女孩。”

然而年少的李飞飞还是遭遇了一次性别上的打击,在一个平淡无奇的一天,老师在下课时提出了一个奇怪的要求:女生先回家,男生在座位上多坐几分钟。这让李飞飞好奇了起来,于是在教室门口徘徊,藏在了一个能听到老师说话的地方。而所听到的话却让她备受打击、终生难忘。

老师说:“我让女同学先走,是因为现在我要告诉你们:你们的整体表现是不行的。男孩天生就比女孩聪明,数学和科学就是体现你们脑子灵光的基础学科。你们的平均成绩竟然比女生还低,这种情况没有任何借口。我今天对你们非常失望。”

接下来,也许是觉得有必要鼓励一下大家,老师的语气似乎缓和了一些:“但你们也不要自暴自弃。等到了十几岁,你们会发现,周围的女生自然就变笨了。她们后劲不足,成绩会不断下降。即便如此,我还是希望你们都能更加努力,发挥你们作为男生的潜力。落在女生后面是不可接受的,大家明白了吗?”

因为小学老师的“女生长大就变笨”的言论,对她形成了刺激,在后来学习物理受挫时,就想到此 —— 「女生就是不如男生吗?难道这就是等待每个女孩智力发展的残酷命运吗?最糟糕的是(甚至比我的课堂表现还要糟糕),我找不到答案。」

在小学的最后一个暑假,李飞飞被父母告知,他们需要先后移民至美国。此刻的她还不知道这意味着什么。短短几周后,家中就只剩下李飞飞和母亲两人。和父亲的这一别,便是三年。

在此期间,李飞飞对父亲的思念从未改变,记忆中的父亲曾在一家化学公司的计算部门工作,他对严肃性有一种病态的过敏,天生就能从光、速度、扭矩、力、重量和张力的角度来看待世界,在家里通过物理学知识解决各种难题。这份思念促使着她去了解父亲热爱的物理学,她也开始逐渐了解物理学的美丽和伟大。随着物理成绩的进步,一项新技能似乎正源源不断地从她身上涌出——她意识到,这就是自己第一次爱上的事物,持续时间可能是一生。

15 岁那年,李飞飞怀揣着复杂的心情,跟着母亲来到上海的浦东机场。在外滩,她想到了爱因斯坦也曾是个移民,这带给了她一丝乐观的情绪。

目的地,美国。她的身边除了母亲,唯有物理学。


寻找北极星

李飞飞和父亲时隔三年的重逢既没有感人泪下的情节,也没有发生突如其来的转折。他的父亲因二手车抛锚姗姗来迟,母女两人在机场出口徘徊了数小时。这段经历还让李飞飞发现,自己学了几年的基础英语,在实际生活中似乎毫无用处。

对那个年代的移民家庭来说,这一切只是家常便饭。

在名为帕西帕尼的小镇,她们开始了新生活:李飞飞不仅需要从头学习自己无比熟悉的数理术语的英文说法,甚至还要学起日常交际英语。这种语言不通的问题困扰着整个家庭,因此她们一家三人都需要从底层打工开始做起:不稳定的兼职、贫乏和劳动的循环、高速发展的机器学习技术(此时的 CNN 之父杨立昆,才刚起步自己的研究人生)……一切都比她离开的世界“更明亮、更快、更沉重、更喧闹”。

除了有些累的新生活,母亲恶化的病情也令李飞飞十分担忧。在某一日的家庭出游中,父亲将车开到了普林斯顿大学的校园,一尊青铜半身像引起了她的注意——那正是爱因斯坦的纪念雕像。

看着这尊雕像,她意识到,自己对物理学的热情只是被新环境吓到了,并没有消退。很快,她重新找到了自己追逐的目标。

学年第一次的数学考试,李飞飞离拿 A 只有 0.6 分之遥。这场失利除了让她十分沮丧,还让她鼓起勇气,开始频繁拜访数学老师的办公室请教问题。

她的高中数学老师鲍勃·萨贝拉(Bob Sabella)拥有独立的办公室和首席教师的头衔。萨贝拉为李飞飞的新生活带来了很大的帮助,由于帕西帕尼高中没有微积分课,所以萨贝拉为李飞飞专门设计了一个临时的课程,在午休期间教导她。萨贝拉不仅会在交流中指出她的用词错误并不厌其烦地解释单词和英语概念,还和她交流在文学上的兴趣:萨贝拉向李飞飞推荐科幻书籍,而她又给萨贝拉推荐中国的“四大名著”。

两人逐渐熟络,李飞飞的父母亲切地称呼萨贝拉为“大胡子数学老师”,而萨贝拉和他的妻子琼也将李飞飞视如己出,带她去迪斯尼度假。

高三毕业后,李飞飞怀揣着对爱因斯坦的憧憬,考进了普林斯顿大学。准确地说,李飞飞不仅进入了普林斯顿大学的提前录取周期,还获得了全额的经济援助奖学金。这一结果同样惊呆了栽培她的萨贝拉老师。

步入大学后,李飞飞开始逐渐游走于“现实”和“校园”两个世界。在“现实”中,她需要照顾母亲加重的病情和家庭的经济情况;而在“校园”里,她接触到了无数的少年天才们,以至于她在书中将普林斯顿大学形容为“智力天堂”。她依旧紧密保持着和萨贝拉夫妇的联系,他们是她在美国为数不多的朋友,且在李飞飞认识的成年人当中,只有这对夫妇真正经历过大学生活,可以给予她“过来人的经验”。

好景不长,大一还未结束,两个世界如同脱轨的列车互相碰撞。原来,李飞飞的母亲在十几岁时就患有风湿热,病情不断地加重,并开始威胁生命。此时,依然是萨贝拉夫妇站了出来,为李飞飞的母亲找到了面向低收入家庭的手术机构。针对李飞飞家庭加剧的经济危机,萨贝拉夫妇借给她 2 万美元开了一家干洗店,让她的父母经营。李飞飞在过往和这对夫妇无话不谈,甚至常和萨贝拉老师就一些无关紧要的问题唇枪舌剑一番。但收到这笔钱,却令她无话可说。

从此,她几乎每个周末都要回家帮忙经营父母的干洗店。令人振奋的是,李飞飞的父母也在正式经营干洗店之后,也因生活步上正轨逐渐找回了自信。

大二那年的夏天,李飞飞被伯克利大学的神经科学实验选中作为助理,得以前往加州,第一次见识真正的前沿科学世界。实验的内容是:如果给一只猫播放一连串视觉刺激图像,我们是否能够利用猫大脑中检测到信号来重建这些片段?

在黑暗的实验室中,是那令人终生难忘的景象:扩音器混乱的噪声,节奏的声音变化,每个看似统一的神经元群显示出独特的音调,以及通过这些信号所重建的、猫脑海中的景象。这份经历成为了李飞飞人生的转折点,她意识到物理学的魅力不仅是方程式,还有对其象征意义的追逐和探索。她在书中忘我地回忆这场实验的每一起细节,仿佛灵魂的一部分永远留在了伯克利的实验室,从未离去。

李飞飞的父母移民美国闯荡,她将父母对无限机会的追求比喻为“北极星”。“北极星”是历史上每一位科学家穷尽一切追逐的坐标,而找到属于自己“北极星”的人,会在余生焕发出无与伦比的活力。物理学教给了李飞飞一件事,那就是对提出重大问题和寻求“北极星”的热情。


初次亮相

在李飞飞毕业的那年,互联网泡沫爆发了。

正值互联网行业蓬勃发展之际,就连华尔街也疯狂找人,想赶上这一风口。李飞飞一下收到了多家顶级投行抛出的橄榄枝,但母亲只用了两个问题,让她重新审视自己的内心追求。

“妈妈,我面试了几家公司,就是一些华尔街巨头,他们给的条件很诱人……”
“华尔街巨头?”
“就是股票、交易什么的。搞投资的。会有很多东西需要学习,但如果我下决心,肯定能学会的……”
“这是你想要的吗?”
“我的意思是,光是薪水就足以改变我们的生活了,而且——”
“飞飞,这是你想要的吗?”
“…你知道我想要什么,妈妈。我想成为一名科学家。”
“那还有什么好说的呢?”

2001 年,李飞飞赴加州理工学院深造,在计算机视觉领域的两位杰出导师彼得罗·佩罗纳(Pietro Perona)教授和克里斯托夫·科赫(Christof Koch)教授的指导下,专注于神经科学与计算机科学交叉学科的研究。彼得罗和克里斯托夫都是具有冒险精神的学者,痴迷于最前沿的计算机视觉研究。这种情绪带动着李飞飞,他们鼓励她广泛阅读文献,紧跟领域的最新发展。

在彼得罗的办公室外,她还邂逅了自己未来的伴侣:西尔维奥·萨瓦雷斯(Silvio Savarese)。她对西尔维奥的最初印象是“充满好奇心的呆子”——就像她自己一样。

博士学业完成后,李飞飞前往伊利诺伊大学香槟分校和普林斯顿大学担任助理教授,正式开始自己的学术生涯。

当时,人工智能尚未受到广泛关注,而她选择的计算机图像识别更是鲜有人涉足的冷门方向。即使面临资金申请困难、外界质疑以及性别与种族偏见等多重挑战,李飞飞仍怀揣着热情坚持投入研究,自掏腰包补贴项目。

研究之初,李飞飞面临的不仅仅是技术上的挑战,还深受性别偏见的影响。有些教授甚至嘲讽她,不如做点有用的事。尤其是在研究界,有一种长期的偏见:他们认为,李飞飞作为亚裔女性,啃计算机图像识别这块硬骨头,根本不可能做出成绩。

在经历了艰难的研究初期和几乎停滞不前的进展后,李飞飞结识了自己在普林斯顿大学的校友 & 同事、计算语言学教授克里斯蒂安·菲尔鲍姆(Christiane Fellbaum)。这次谈话中,克里斯蒂安向李飞飞提出了一个将改变后者命运的问题:

你听说过一个叫 WordNet 的项目吗?

WordNet 是一个由普林斯顿大学认识科学实验室建立和维护的词典项目。这个项目的目标可谓是野心勃勃:将人类通过语言表达的每一个概念都组织到一个庞大的单词数据库。这个项目还有一个衍生的项目 ImageNet,即用视觉示例阐释 WordNet 包含的每一个概念。克里斯蒂安正是 WordNet 项目的联合开发者。

李飞飞心动了。WordNet 的项目概念让她发现,正如婴幼儿通过观察无数物体和场景来学习识别一样,计算机或许也能通过分析大量图片及其关联性进行学习。于是,她向克里斯蒂安讨来了“ImageNet”这个“失败作”的名字,打算让这个名字承载自己的想法。

在构建包含数百万张图片的数据集过程中,李飞飞遭遇了巨大工程难题。幸运的是,她得到了李凯教授及学生邓嘉的支持,借助他们的分布式计算专长解决了数据下载和标注的问题。从手动搜索下载到编写爬虫自动抓取 Google 上的图片,再到利用 Amazon Mechanical Turk 众包平台进行全球范围内的标注工作,历经两年艰辛努力,终于建立起拥有近 1500 万张图片的 ImageNet 数据库。

期间,李飞飞的“师爷”、彼得罗教授的导师吉滕德拉(Jeetendra)教授找到她询问近况。她有问必答,结果却被吉滕德拉泼了一身冷水:“你们在这个想法投入太多了……科学的诀窍是跟随着你的领域一起成长。不要太超前”在此之前,李飞飞还想过找吉滕德拉做自己的推荐人。

2009 年,他们将论文 ImageNet: A Large-Scale Hierarchical Image Database 投向了计算机视觉的顶会之一:CVPR(Conference on Computer Vision and Pattern Recognition)。令人大跌眼镜的是,CVPR 的主办方直接拒绝让她上台演讲,只允许展出一张小海报。

北极星开始闪烁,逐渐暗淡,几近失去光芒。

照亮人类道路的星

ImageNet 发布的第二年,为了检验其潜力,李飞飞的团队决定将 ImageNet 引入第二年在欧洲举行的计算机视觉大赛中,提议参赛者使用该数据库来训练他们的算法,从而催生了 ImageNet 大规模视觉识别挑战赛(ILSVRC)

李飞飞的人生与事业也迎来了新的阶段,她在同年受聘于斯坦福大学担任助理教授职位。彼时,她已婚嫁给了西尔维奥,但因其工作关系身处密歇根大学,两人面临地理上的长期分离问题。

现实不是小说。最初的 ILSVRC 比赛在李飞飞被视为 ImageNet 历史上“最令人泄气”的时刻之一,没有多少创新的发明在比赛中诞生。

就这样,转眼来到 2012 年的第三届 ILSVRC,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 三位学者运用基于神经网络的 AlexNet 模型,在 ImageNet 上取得了显著成果,错误率降至 15.3%,远远领先于其他参赛者。这次突破打破了人们对神经网络的传统认知,也让 ImageNet 名声大噪。

当时的李飞飞正处于产假,并突然接到了萨贝拉教授逝世的噩耗,故而未能亲临意大利佛罗伦萨的颁奖现场。但她敏锐地感知到这将是人工智能发展史上的一个重大时刻,于是在一个晚上果断购机票连夜飞往意大利观礼。

2012 年,33 岁的李飞飞被斯坦福大学授予终身教职荣誉,成为该系有史以来最为年轻的终身教授。

Hinton 基于 ImageNet 所研发的深度神经网络确实颠覆了整个领域,它标志着计算机视觉技术的重大飞跃。截至 2017 年的比赛,计算机识别图像中物体的错误率已从 2012 年的 15% 骤降至不足 3%——此刻,计算机的视觉能力已经超越了人类水平。

随着 ImageNet 的成功,李飞飞的名字与人工智能领域的革新紧密相连,她的工作为后来的研究者提供了坚实的基础,激励着无数科技人才投身于人工智能尤其是计算机视觉的研究。而她本人在面对性别歧视、种族偏见以及学术困境时展现出的坚韧不拔和智慧勇气,也成为了女性科学家在科研道路上克服困难、追求卓越的典范。

如今计算机视觉领域有 Sora 横空出世,大模型依然混战不断,AGI 的未来充满着不确定性。这里以李飞飞自传的最后一段结尾,祝每一位迷茫的开发者、每一位努力奋斗的女性都能找到属于自己的“北极星”:

在现实世界中,存在着一颗北极星,那是小熊星座中最明亮的恒星。而在思想的世界里,却存在无数个类似的导航指引。每一种新的追求,每一个新的痴迷,都悬挂在黑暗的地平线上,闪烁着耀眼的光芒,向不懈追寻的人们招手致意。这就是为什么我最大的快乐在于知道旅程永远不会结束,我也永远不会停歇。总会有新的事物等着我去追逐探索。对科学家而言,想象力就如同布满北极星的璀璨天空。


4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫描下方海报中的二维码,进一步了解详情。

文章原文

Continue Reading李飞飞亲述:我所遭遇过的性别歧视

为了“改”游戏翻遍《电脑报》、备战高考还开发了套软件?这是一个不为人知的林咏华

受访者 | 林咏华,北京智源人工智能研究院副院长兼总工程师  
采访者 | 唐小引,CSDN&《新程序员》执行总编
作者 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

当谈论起技术领域的翘楚、北京智源人工智能研究院副院长兼总工程师林咏华时,人们很容易给她贴上一个鲜明的标签:一位在科技浪潮中披荆斩棘的女性。

曾是 IBM 中国研究院成立以来首位女性院长,也是 IBM 全球杰出工程师;从事了 18 年的系统架构、云计算、AI 系统、计算机视觉等领域的研究;有超过 50 个全球专利,并多次获得 ACM/IEEE 最佳论文奖;获评 2019 年福布斯中国 50 位科技领导女性之一……

她的技术成就令人赞叹、受人崇敬……而这一次,我们不聊技术。

林咏华的人生绝不仅限于技术和职业发展,更有一部关于坚韧、勇气和追求的奋斗史:从最初的电脑探索,到之后在西安交通大学的求学之路,以及后来在 IBM 和智源的经历,一路上充满了挑战和转折。

接下来,让我们跟着她的回忆,一起见证一位女性是如何在技术领域中崭露头角,从而书写了属于自己的传奇。

林咏华,北京智源人工智能研究院副院长兼总工程师

(注:本文为访谈节选,后续将提供更多林咏华的技术洞见,敬请期待。)

为了玩上游戏,通读每一期《电脑报》

在北京智源人工智能研究院的一间办公室里,林咏华坐在桌前,回想着她的童年点滴:“我最早接触电脑,应该是在小学五六年级的时候。”

她轻笑地说着,仿佛又回到了那段初识电子世界的纯真年代。

与许多望子成龙的家庭一样,小学五六年级的她每周都会去少年宫,在相当有限的时间里去接触电脑并学习编程:最初在苹果 II 里学 LOGO 编程,后来又在中华学习机上学习 C 编程。看着 LOGO 世界里的小海龟通过她的指令四处移动,年幼的林咏华当时心想:挺有趣的。

随着年龄的增长,她对计算机的兴趣逐渐深入。到了初二的时候,母亲看她对计算机如此感兴趣,便把家中积蓄都拿出来为她买了一台 286 的兼容机。

“我们家当时收入算是偏低,所以我十分感激母亲对我爱好的支持,也正是这一次重要的支持,帮助我启蒙并走上计算机科技这条路。

拥有了人生第一台电脑的林咏华,对这台 286 可谓爱不释手。但当时 286 刚发布不久,基本内存加扩展内存总共只有 1024K,显示器还是黑白的,对于当时“想玩游戏”的她来说,配置有些跟不上,而当时市面上唯一能给她提供参考的资料只有厚厚的《电脑报》。

对计算机的探索欲和对游戏的热爱,驱使着她几乎翻遍了每一期的报纸,按照上面的攻略去“改内存”的使用方法,尝试用黑白显示器去模拟真彩显示器,把彩色游戏玩起来。也是从那时开始,林咏华爱上了挖掘底层软件系统的知识,甚至最喜欢的就是“改”游戏。

”那会儿玩《大富翁》《航海时代》《三国志》这些游戏,我都没有耐心一步一步玩,就会到后台看内存,分析哪些字节决定了’血’或者’钱’的变化,然后不断修改内存,这样一来就很容易通关,以至于后来我对’改’游戏的兴趣远高于’玩’游戏的兴趣。”

回想这段经历,林咏华不禁感慨:“这也奠定了我之后在 IBM 从事 AI 系统底层技术的基础。”诚然,不论是幼时的游戏还是后来的 AI,她对底层技术的热爱,始终没有改变,都源自于最初的自己——那个在黑白显示器前翻阅《电脑报》、探索游戏背后机制的少女。

人生首次,系统性地开发了一套软件

除了 286 电脑外,她母亲还在她高中时期买了一台能直接打印 A3 纸的爱普生打印机。“那是我人生拥有的第一台打印机,拥有即巅峰,之后我再也没有拥有过这样的打印机。”林咏华说道。

当时,她母亲在一家酒店担任财务主管,正值电脑刚开始普及的阶段,酒店管理团队希望能利用电脑来简化财务管理工作,包括记账和发放工资等。虽然她母亲对电脑一窍不通,甚至都不确定电脑是否能完成这项任务,但她还是直接问了林咏华:“你能不能帮我做一套这样的软件?”

于是,林咏华一边全力准备着高考,一边用 FoxBASE(一个数据库管理系统)开发了一套财务管理软件——这也是她第一次系统性地实现一套软件

最终,这套软件成功装到了她母亲单位的电脑上,协助酒店进行记账和工资发放。至于那台昂贵的、能直接打印 A3 纸的打印机,也是为了方便打印专属于那个年代的、长长的工资条。

给予一个同样的机会,女性一点都不比男性差

高考那年,林咏华拿到了理想的高考成绩。在填写志愿时,她选择了距离广东千里的西安交通大学。

进入大学后,林咏华的专业是信息与通信工程,由于成绩优异,提前获得了保研的资格。确认自己获得保研名额后,林咏华开始筛选她的研究生导师,并很快将目光锁定在了一位其所在专业出了名的严师身上。

找到老师的办公电话后,她尝试拨打了过去。而这位老师表示,他一般优先招男同学进实验室。但幸运的是,他还提到,“如果你想来,正好我这边需要完成一个事情,你可以过来先试一试。”

林咏华明白,这是老师对女生的动手编程能力没有信心,而这又是能做出优秀科研成果所必须的能力。于是她前后花了近两个月的时间,期间还临时自学了 C++,按照要求完成了该老师给的一个文件处理相关的任务,也成功被录用了。

这件事看似完美解决了,但对林咏华自身来说,却颇有感慨:“在我看来,很多时候并不是女性不够优秀,但实际上很多看似同等的条件下,可能女性的机会就是少。

这也是后来触动林咏华举办 IEEE Women in Engineering 活动的主要原因:她不仅是 IEEE Women in Engineering 北京的创始人,也是该年度峰会的核心发起人,多年来她一直在推动科技界多元文化与女性科技领导力的发展。

当时还在 IBM 研究院的时候,彼时 IBM 董事长、总裁兼首席执行官 Ginni Rometty 是一位女性,因此一直在企业内部倡导,要考虑给女性更多的机会,故而林咏华对于女性职场问题还没有特别的切身体会。但当她离开 IBM,更多地接触到社会的方方面面后,她发现确实有很多地方会对女性单方面地设置瓶颈。

为此,除了 IEEE Women in Engineering 活动,林咏华在进入智源后,也比较在意女性职场问题。她很开心的是,智源给予了男女同等的机会:曾有一段时间,智源内部AI系统的负责人是女性,AI 大模型评测的负责人是女性,语言大模型团队的负责人也是女性。

“我当时就感觉,只要你愿意给予一个同样的机会,现在很多时候女性做的一点都不比男性差。”

除此之外,林咏华还时常跟招聘团队说:不论男女,你们都不要对年龄设限,需要关注的是候选人的真正能力。一旦设了年龄限制,对女性来说可能会更困难,例如生育所造成的职场发展的时间影响。

最后,在今天这个特别的日子里,我希望每一位女性都能不被性别、偏见或任何其他困难所限制,坚定地走在自己选择的道路上。用热爱与坚韧,书写属于你们自己的科技传奇。

推荐阅读:

英伟达禁止模拟运行 CUDA,中国开发者需要重点关注什么?

在Google工作3.3年的研究科学家,开始创业从零试水训练大模型的1年:工作量翻倍,“坑”太多了!

乐视宣布应聘者无需填年龄、婚育情况;马斯克:OpenAI改名ClosedAI,我就撤诉;传微信Linux原生版重构 | 极客头条

文章原文

Continue Reading为了“改”游戏翻遍《电脑报》、备战高考还开发了套软件?这是一个不为人知的林咏华

烧掉数万亿 Token、数百 Agent 连跑一周:Cursor“从零写浏览器”,结果是拼装人类代码?

整理 | Tina

现在,大模型可以独立写完整整一个浏览器了?

Cursor CEO Michael Truell 最近分享了一项颇为吸睛的实验:他们用 GPT-5.2 让系统连续不间断运行一周,从零构建出一个“可用”的 Web 浏览器。按他的描述,产出规模达到:超过 300 万行代码、横跨数千个文件,全部通过这套 AI 驱动的编程平台生成。

图片

数百个Agent “从零”

写了一个浏览器?

按照他的说法,这个项目并没有依赖现成的渲染引擎,而是用 Rust 从零实现了一整套渲染引擎,其中包括 HTML 解析、CSS 级联规则、布局计算、文本排版(text shaping)、绘制(paint)流程,甚至还实现了一个自定义的 JavaScript 虚拟机。

Truell 也坦言,这个浏览器目前只是“勉强能用”,距离 WebKit 或 Chromium 等成熟引擎还有很大差距;但团队依然“感到震惊”,因为简单网站在它上面渲染得很快,而且整体效果在很大程度上是正确的。

与此同时,Cursor 还发布了一篇博客文章,题为《Scaling long-running autonomous coding》(扩展长时间运行的自主编程)。文章回顾了一系列实验:让“编程 agent 连续自主运行数周”,目标是“理解在那些通常需要人类团队耗费数月完成的项目中,agentic coding 的能力边界究竟可以被推进到什么程度”。

在这篇文章里,他们重点讲的是多 Agent 如何协同:如何在单个项目上同时运行数百个并发 Agent、如何协调它们的工作,并观察它们写出超过一百万行代码和数万亿个 token 的过程与经验。

Cursor 先承认了单个 Agent 的局限:任务规模一大、依赖一复杂,推进速度就会明显变慢。并行化看似顺理成章,但他们很快发现,难点不在并发,而在协同。






“学习如何协同:我们最初的方法是让所有 agent 具有同等地位,并通过一个共享文件自行协同。每个 agent 会检查其他 agent 在做什么、认领一个任务并更新自己的状态。为防止两个 agent 抢占同一项任务,我们使用了锁机制。

这一方案在一些有趣的方面失败了:

agent 会持有锁太久,或者干脆忘记释放锁。即使锁机制正常工作,它也会成为瓶颈。二十个 agent 的速度会下降到相当于两三个 agent 的有效吞吐量,大部分时间都花在等待上。

系统非常脆弱:agent 可能在持有锁的情况下失败、尝试获取自己已经持有的锁,或者在完全没有获取锁的情况下更新协调文件。

我们尝试用乐观并发控制来替代锁。agent 可以自由读取状态,但如果自上次读取后状态已经发生变化,则写入会失败。这种方式更简单、也更健壮,但更深层的问题依然存在。

在没有层级结构的情况下,agent 变得非常规避风险。它们会回避困难任务,转而做一些小而安全的修改。没有任何一个 agent 承担起解决难题或端到端实现的责任。结果就是工作长时间在空转,却没有实质性进展。”

为了解决这一问题,Cursor 最终引入了更明确的角色分工,搭建一条职责清晰的流水线:将 Agent 分为规划者和执行者。






“规划者(Planners) 持续探索代码库并创建任务。他们可以针对特定区域派生子规划者,使规划过程本身也可以并行且递归地展开。

执行者(Workers) 领取任务并专注于把任务完成到底。他们不会与其他执行者协调,也不关心整体大局,只是全力处理自己被分配的任务,完成后再提交变更。

在每个周期结束时,会有一个评审 Agent 判断是否继续,然后下一轮迭代会从干净的初始状态重新开始。这样基本解决了我们的协同问题,并且让我们可以扩展到非常大的项目,而不会让任何单个 Agent 陷入视野过于狭窄的状态。”

在此基础上,Cursor 把这套系统指向一个更具挑战性的目标:从零构建一个浏览器。他们表示,Agent 持续运行了将近一周,在 1,000 个文件中写出了超过 100 万行代码(原文如此,跟 Michael Truell 说的 300 万行不同),并将源码发布在 GitHub 上供外界浏览。

图片

Cursor 进一步宣称:即便代码库规模已经很大,新启动的 agent 仍然能够理解它并取得实质性进展;同时,成百上千个 worker 并发运行,向同一个分支推送代码,而且几乎没有冲突

一场“全民打假”的开始?

这次实验之所以引发强烈反应,很大程度上是因为:Web 浏览器本身就是软件工程里公认的“地狱级”项目。

图片

它难的不只是“写代码”,而是工作量的量级、模块之间的高耦合,以及兼容性这条几乎看不到尽头的长尾。

在 Hacker News 上,有人顺手抛了一个问题:“开发一个浏览器最难的地方是什么?”很快就有人给出一个类比:“说句真心话,这个问题几乎等同于:开发一个操作系统最难的地方是什么?”

因为现代浏览器是千万级代码量的系统,能够运行非常复杂的应用。它包含网络栈、多种解析器、frame 构建与回流(reflow)模块、合成(composite)、渲染(render)与绘制(paint)组件、前端 UI 组件、可扩展框架等等。这里面每一个模块,都必须同时做到:既支持 30 年前的旧内容,也支持复杂得离谱的当代 Web 应用。同时,它还得在高性能、高安全前提下尽可能少占用系统资源,并且往往要跨 Mac、Windows、Linux、Android、iOS 等多个平台运行。

还有人提到,最难的是那张超长的任务清单。浏览器里包含多个高复杂度模块,每一个单拎出来都可能要做很久;更麻烦的是,它们之间还要通过一套相当“啰嗦”的 API 连接起来——很多接口你必须实现,至少也得先把壳子(stub)搭出来,否则系统就会崩。

Cursor 在博客中配了一段视频,并写道:“虽然这看起来像是一张简单的屏幕截图,但从头开始构建一个浏览器是非常困难的。”

然而如果外界自己去尝试编译这个项目,会很快意识到:它离“功能齐全的浏览器”还差得很远,甚至看起来在公开代码状态下,连最基本的构建都很难稳定通过。

从仓库公开信息来看,近期 main 分支的多次 GitHub Actions 运行结果显示失败(其中还包括工作流文件本身的错误);不少开发者的独立构建尝试也报告了数十个编译错误。与此同时,最近的一些 PR 虽然被合并,但 CI 仍处于失败状态。

更有开发者表示自己回溯 Git 历史,往前翻了约 100 个提交后表示,依然没能找到一个可以“干净编译通过”的版本。

这也引出了一个问题:这些被 Cursor 描述为在代码库中长期并发运行的“agent”,在工程链路上到底做到哪一步?至少从当前公开状态看,它们似乎并没有把“能编译、能检查”当成最基础的收敛目标——因为无论是 cargo build 还是 cargo check,都会立刻暴露出成片的编译错误和大量警告。

而 Cursor 的博客文章除了提供代码仓库链接外,既没有提供可复现的演示,也没有提供任何已知的有效版本(标签 / 发布 / 提交)来验证截图。无论如何,这文章本身给人一种原型功能完备的错觉,却忽略了此类声明应有的基本可复现性特征。

图片

有人在 Michael Truell 的 LinkedIn 上直接把结果抛了回去:“构建直接失败,报了 32 个错误,代码本身就是坏的;没有任何 release、没有 tag,CI 也在持续失败,我们甚至连这个所谓‘可用的浏览器’都没法编译、没法试跑。这更像是一场营销活动,而不是一次真正的 agentic 实验。”Michael Truell 至今没有回复。

图片

目前唯一一个在社交平台上明确分享“复现成功”的人,是前浏览器开发者 Oliver Medhurst。他表示自己花了大约两个小时修复编译错误和漏洞,才把项目跑起来。至于性能,他的评价也很直接:有些页面加载要整整一分钟,“不算好”。

还有一个更敏感的追问也随之出现:“所以这真的是从零开始写的吗?”他给出的回应更像一句反转预告:“剧透:不是。”

图片

更多网友通过翻看仓库依赖发现,这个项目直接引入了 Servo (一个最初由 Mozilla 开发的基于 Rust 的浏览器)项目的 HTML 与 CSS 解析器(html parser、css parser),以及 QuickJS 的 Rust 绑定(rquickjs),并非所有关键组件都是自行实现。

再加上 selectors、resvg、wgpu、tiny-skia 等一系列成熟库,这个“浏览器实验”更像是直接调用了人类编写的代码,而不是“从零开始”的一整套渲染与执行引擎。

图片
图片
图片

更搞笑的是,Cursor 这里用的还是一个发布于 2023 年 6 月的 wgpu 0.17 这种非常旧的老版本,而当前最新版本已经是 28(发布于 2025 年 12 月)。大概因为大模型写代码时往往会直接改版本管理文件(如 package.json、Cargo.toml),而不是通过 npm add、cargo add 这类构建工具来引入依赖。

图片

这也不怪网友骂他们:

“这简直是胡扯。应用根本跑不起来,功能也缺得厉害。LLM 更像是在把它训练过的现成代码拼起来做个浏览器——毕竟 Chromium 本来就是开源的。最后堆出了 300 万行‘看起来很多’但没有价值的代码,结果还不能用,更谈不上什么新产品。折腾到最后,你还是得让开发者花大量时间去调试、排查安全漏洞,才能把它打磨得像一个早就存在的成熟产品。”

“两周时间、数百个 agent,V8 和 Blink 又都是开源的。说到底,这就是在浪费 GPU 和电力。”

图片

最后值得一提的是,这个实验还暴露出一个不容忽视的问题:成本。

有人翻回 Cursor 的原帖指出,他们还在跑类似实验,比如一个 Excel 克隆项目(https://github.com/wilson-anysphere/formula)。GitHub Actions 的概览数据很夸张:累计触发了 16 万多次 workflow 运行,但成功的只有 247 次——失败的主要原因不是代码本身,而是超出了支出上限。

当然,Agent 并不在乎预算;但在真实的软件工程里,可复现的构建、可持续的成本、可验证的产出,才决定一个系统最终能不能被信任、被维护、被继续推进。

参考链接:

https://cursor.com/cn/blog/scaling-agents

https://news.ycombinator.com/item?id=46646777

https://www.reddit.com/r/singularity/comments/1qd541a/ceo_of_cursor_said_they_coordinated_hundreds_of/

https://www.linkedin.com/posts/activity-7417328860045959169-PFuT/

https://xcancel.com/CanadaHonk

声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。

今日好文推荐
IDE消亡之年?Steve Yegge两句狠话:2026年还用IDE就不行,每天烧500–1000美元Token才合理
“商业的HTTP”来了:谷歌CEO劈柴官宣 UCP,Agent 直接“剁手”下单,将倒逼淘宝京东“拆家式重构”?
估值1亿的”死了么”APP有多好抄?5分钟AI就能复刻,去年有人一下午做出原型
Anthropic深夜放出王炸!白领饭碗要被AI砸了?网友:不支持Linux,差评
会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

图片

文章原文

Continue Reading烧掉数万亿 Token、数百 Agent 连跑一周:Cursor“从零写浏览器”,结果是拼装人类代码?

别再学做App了:Karpathy预言Agent将淘汰App Store,软件进入“用完即丢”时代

作者 | 木子

如果软件可以由 AI 现场生成,那应用商店会不会消失?

知名 AI 工程师、神经网络布道者 Andrej Karpathy,前两天又发了篇长帖,引起热议。最主要的意思是:

以后可能不用专门去应用商店“找”App 了,你只要说清楚想干嘛,AI 现场给你做一个——而且可能只要 1 分钟就做好了。

图片

图注:节选自 Andrej Karpathy 新帖子

他拿自己做的实验,举了个例子:

打算用 8 周时间,把静息心率从 50 降到 45(静息心率,是人在完全放松状态下每分钟的心跳次数,常被用来衡量心肺功能)。

一般人遇到这种需求,大概率是去应用商店搜“Cardio Tracker”之类的 App。但 Karpathy 另辟蹊径——没请开发者,也没下载现成的 App;而是 直接用一个 AI Agent,临时做了一个专门追踪这次训练计划的仪表盘。

图片

这个 Agent 反向解析跑步机云端接口,拉原始数据、清洗、调试,再生成一个网页前端,1 小时搞定。而两年前,这大概要 10 小时。

但 Karpathy 并不满足于“只用 1 小时”,他在想  为什么还要 1 小时?

他分析认为,时间并没怎么花在“理解需求”上,而是主要花在了补基础设施:接口不友好、缺乏 AI 原生 API、单位制和日历逻辑要人工修 bug 等等。

他吐槽道:

“99% 的产品和服务仍然没有 AI 原生的 CLI。99% 的产品和服务仍然维护着 .html/.css 的文档,好像我不会第一时间把内容复制粘贴给我的 Agent 去完成任务似的。”

换句话说,现在的最大阻力不在模型能力,而在生态还没准备好。

于是,他大胆预判:如果设备本身,提供 Agent 可直接调用的 API、如果常见功能有成熟技能库、如果 AI 已经掌握个人长期数据;那么这件事,理论上只剩下 “描述需求 + 自动拼装”未来可能只需 1 分钟。

其实,这早已埋下了伏笔。Karpathy 于 2023 年写下的“名言”:“目前最热门的新编程语言是英语”,现在还挂在他主页置顶。

图片

当自然语言本身就是编程接口,软件就不一定非要先被做成一排排固定产品,等人去下载。它可以在对话里被拼出来,在具体场景中存在,用完就消失。

在 Karpathy 看来,如果“说一句需求”,比“进应用商店挑一个”更快,那默认入口迟早会变。

1 当语言成为编程接口,Karpathy 眼中的软件未来

除了预判未来 AI 可以迅速定制软件,这篇帖子的核心观点,还可以拆成以下几条:

  • 软件正在从“标准化产品”,变成“按需生成的临时工具”,更短暂、更个性化。

  • 这要求硬件和软件提供 AI 原生 API,让机器和机器直接对话,而不是依赖人为操作界面。

  • 企业可能不再大量购买 SaaS,而是动态生成工具。而且传统 UI,也可能被 Agent 编排替代。

  • 应用商店不会消失,但它的角色会弱化,未来更可能是“经过验证的基础层 + AI 个性化扩展”的混合模式。

  • 真正的竞争力,不再是谁“懂 AI”,而是谁能最快把 AI 部署成实际可用的系统。

以下为帖子原文,InfoQ 在不改变原意的情况下,对其进行了整理编辑。

我对高度定制化软件即将到来的时代会是什么样子,非常感兴趣。

举个今天早上的例子,我最近在有氧训练上有点松散,于是决定做一个更认真、更有纪律的实验:

在 8 周内,把静息心率从 50 降到 45。主要方式是完成一定总时长的 Zone 2 有氧训练,并且每周做 1 次 HIIT。

1 小时后,我用 Vibe Coding 做了一个为这次实验量身定制的超专属仪表盘,用来追踪进度。Claude 不得不反向解析 Woodway 跑步机的云端 API,拉取原始数据,进行处理、过滤、调试,并创建一个 Web 前端界面来跟踪这个实验。

过程并不完全顺畅,我需要发现并指出一些 bug,让它修复,比如它搞错了公制和英制单位,也把日历里的日期和星期匹配错了。

不过,我依然觉得整体方向是清晰的:

  • 永远不会(也不应该)有一个专门为这种事情存在的应用商店 App。

我不应该为了这个去找、下载、使用某个“有氧实验追踪器”。这不过是大约 300 行代码,一个 LLM Agent 几秒钟就能生成。那种在应用商店里从一长串离散应用中挑选一个的模式,在 LLM Agent 可以现场即兴生成只属于你的应用时,显得有些不对劲,也有点过时。

  • 其次,这个行业,需要重构一套服务体系:由传感器和执行器组成,并具备对 Agent 原生友好的使用方式。

我的 Woodway 跑步机,本质上就是一个传感器:它把物理状态转化为数字信息。它不应该维护一个面向人类的前端界面,而我的 LLM Agent 也不应该去反向工程它;它应该提供一个可以被 Agent 轻松使用的 API 或 CLI。整个行业在这方面推进得非常缓慢,这让我有点失望(也直接拖慢了我的进度)。

99% 的产品和服务仍然没有 AI 原生的 CLI。99% 的产品和服务仍然维护着 .html/.css 的文档,好像我不会第一时间把内容复制粘贴给我的 Agent 去完成任务似的。他们在网页上给出一串操作说明,让你打开某个 URL、点击这里或那里去做某件事。

现在都 2026 年了,为什么还要我手动操作?要么系统自动完成,要么交给我的 Agent。

所以,总的来说,我今天确实对这件事只花了 1 小时感到满意(两年前大概要 10 小时)。

但更让我兴奋的,是去思考:它本来应该只需要 1 分钟。

要实现 1 分钟,需要什么条件?让我只需说一句:“嗨,能帮我在接下来 8 周追踪有氧训练吗?”在简短的问答之后,应用就自动搭建完成。AI 已经掌握大量我的个人背景信息,会主动收集额外所需数据,调用和检索相关技能库,并维护我所有这些小应用和自动化流程。

简而言之,从一组离散应用中挑选的“应用商店”概念本身正在迅速过时。未来将是由 AI 原生的传感器和执行器组成的服务体系,通过 LLM 这层“胶水”进行编排,生成高度定制、短暂存在的应用。只是,这个未来还没有真正到来。

2 应用商店不会消失,但软件即时刻?

Karpathy 和这篇文章,让网友们吵翻天了。

有人觉得,他说出了自己这两年的直觉。一个叫“AIM Network”(下面简称 AIM)的媒体形容道:

“我们过去收集软件的方式,就像收集书一样:精挑细选、下载安装、定期更新,然后慢慢被遗忘。这种习惯可能已经不太适合未来。

…… 未来的流程可能不再是‘下载—安装—配置—适配’,而是 ‘描述—生成—使用—丢弃’。软件将变得短暂、个性化、一次性。”

AIM 还提出:未来,“软件即当下时刻”,而不是“软件即产品”——软件不再是一个被打包、上架、定价的产品,而更像一段即时生成的服务。

不过,他们也没把话说满:应用商店不会突然消失,而是进化成全新的“应用商店 2.0”、“应用商店 3.0”版本。原因很现实:它承担的是信任、审核和安全机制。

未来更可能出现的画面是:不再卖一堆细碎的 App,而是提供可靠的底座,让 Agent 在上面自由拼装。底层还是一套经过验证的基础能力,上面叠加由 AI 即时生成的个性化扩展。

换句话说,要消失的,未必是软件本身,而是“软件必须以固定产品形态存在”这件事。

未来更可能是混合模式:经过验证的基础软件层之上,叠加可定制的 AI 生成扩展,并配合受控的 Agent 权限机制,即“经过筛选的基础能力 + 个性化智能”。


此前,Karpathy 仅用 243 行 Python 代码,就写出了一个能跑的 GPT。由此可见,大模型不再是高不可攀的黑箱技术,而是越来越标准化、可复用的能力模块。

当模型本身越来越“平民化”,真正的竞争优势,就会转向别处:比如基础设施是否顺滑、算力是否充足、Agent 工作流是否成熟等等。竞争不只在模型,更在部署速度。

还有一点,如果说 Karpathy 给的是一个方向:“语言正在变成接口,工具可以即兴生成”;那 AIM 补上的,是一串连锁反应:一旦生成速度足够快,分发逻辑、SaaS 结构,甚至企业 IT 预算怎么花,都会跟着松动。

也有很多网友质疑。

有人觉得 Karpathy 作为一个 AI 从业者,在自卖自夸,就像:“你是个厨师,但并非每个人都想成为或愿意成为厨师。”

Karpathy 表示,人们还在用“软件稀缺”的旧思维看问题,而当软件变得极度廉价、可随时生成时,传统意义上的“应用”本身可能都会失去存在意义。

图片

还有人觉得,首先要想清楚自己要什么,本身就很耗费精力,锐评道:“你奶奶会自己做 App 吗?”

Karpathy 回复道:“奶奶根本没必要懂什么App,甚至不用知道有App这回事;(这些)该由她的LLM 代理知道。”

图片

然后,站 Karpathy的人,说未来 AI 就是好的设计师。

反对者则表示:“构建软件最困难的部分是弄清楚客户真正想要什么。但你声称一个 LLM 能从一位连问题领域词汇都不具备的人的随意语音提示中破解它?”

图片

对于未来的 APP 形态,你怎么看?

参考链接:

https://x.com/karpathy/status/2024583544157458452

https://www.youtube.com/watch?v=GXO-vwg_Q-o

声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。

今日好文推荐
“软件工程师”头衔要没了?Claude Code之父YC访谈:一个月后不再用plan mode,多Agent开始自己组队干活
编码新王登基!Gemini 3.1 Pro 血洗 Claude 与 GPT,12 项基准测试第一!
阿里除夕开源“王炸”千问 3.5-Plus ,性能媲美Gemini 3 Pro、Claude 4.5 Opus,百万 Token 8毛钱
刚刚,OpenClaw “之父”正式加入OpenAI,项目保持开源并成立基金会
📢 InfoQ 新年礼物上线啦!

AI 快讯轮播推送正式上线,给你更优的阅读体验、更强的 AI 赋能、更懂 AI 行业的资讯检索~我们会持续优化体验,追求更深度的 AI 能力内化改造,欢迎大家体验并反馈!立即前往 InfoQ 官网,体验 AI 快讯带来的全新阅读感受吧!

图片

文章原文

Continue Reading别再学做App了:Karpathy预言Agent将淘汰App Store,软件进入“用完即丢”时代