李飞飞：世界是三维的，我们需要尊重这一事实

作者：集小微 2024-12-27

来源：学术头条 #AI教母# #李飞飞# #ImageNet#

1.7w

在人工智能（AI）领域，斯坦福大学教授李飞飞被称为“AI 教母”。

她在深度学习革命中发挥了重要作用，多年来一直致力于创建 ImageNet 数据集和竞赛，该数据集和竞赛要求人工智能系统识别 1000 个类别的物体和动物。2012年，一个名为 AlexNet 的神经网络在 ImageNet 竞赛中获得了冠军，其出色的表现震惊了整个人工智能研究界。

从那时起，神经网络在互联网上提供的大量免费训练数据和可提供前所未有计算能力的 GPU 的推动下，开始取得突破。

在 ImageNet 出现之后的 13 年里，计算机视觉研究人员掌握了物体识别技术，并开始研究图像和视频生成技术。李飞飞与他人共同创建了斯坦福以人为本人工智能研究院（HAI），并继续推动计算机视觉的发展。就在今年，她创办了一家初创公司--World Labs，该公司可以生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”，即生成 3D 世界、在 3D 世界中进行推理并与之互动的能力。

昨天，李飞飞在人工智能顶会 NeurIPS 上发表了题为“From Seeing to Doing: Ascending the Ladder of Visual Intelligence”的主旨演讲，阐述了她对机器视觉的愿景。

在演讲前，李飞飞接受了 IEEE Spectrum 高级编辑 Eliza Strickland 的专访。内容如下：

Eliza Strickland：为什么将演讲题目定为“攀登视觉智能的阶梯”（Ascending the Ladder of Visual Intelligence）。

李飞飞：我认为，直观地说，智能有不同程度的复杂性和先进性。在演讲中，我想表达的是，在过去的几十年里，尤其是深度学习革命的十多年里，我们在视觉智能方面所学到的东西令人惊讶。我们的技术能力越来越强。Judea Pearl 提出的“因果关系阶梯”也给了我启发。

演讲还有一个副标题，“从看到做”。人们对这一点还不够了解：无论是动物还是 AI 智能体，“看”都与互动和“做”密切相关。这和语言是不同的。语言从根本上说是一种交流工具，用来传递思想。在我看来，这些都是非常互补但同样影响深刻的智能模态。

ES：你的意思是说，我们会本能地对某些景象做出反应？

李飞飞：我说的不仅仅是本能。如果你看一下感知的进化和动物智能的进化，就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时，进化的力量就会推动能力和智能的发展。如果你不能感知环境，你与世界的关系就会非常被动；你是吃还是被吃，都是非常被动的行为。但是，一旦你能够通过感知从环境中获取线索，进化的压力就会真正增大，从而推动智能的发展。

ES：你认为这就是我们创造更深入的机器智能的方式吗？让机器感知更多环境？

李飞飞：我不知道“深入”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂，越来越有能力。我认为，解决空间智能问题是迈向全面智能化的基础和关键一步，我对这一点深信不疑。

ES：我看过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界？

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的要解决视觉问题，并将其与做某些事联系起来，有一个非常简单、一目了然的事实：世界是 3D 的。我们生活的世界不是平面的。我们的物理智能体，无论是机器人还是设备，都将生活在 3D 世界中。就连虚拟世界也变得越来越 3D 化。如果你与艺术家、游戏开发者、设计师、建筑师和医生交谈，即使他们是在虚拟世界中工作，其中大部分也是 3D 的。如果你能静下心来，认清这个简单而深刻的事实，那么毫无疑问，破解 3D 智能问题就是根本所在。

ES：我很好奇 World Labs 展示的场景是如何保持物体的持久性和遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在摸索这些东西。

李飞飞：一旦你认同了世界的 3D 性，很多事情就自然而然地发生了。例如，在我们发布在社交媒体上的一个视频中，篮球被投放到一个场景中。因为它是 3D 的，所以你可以拥有这种能力。如果场景只是 2D 生成的像素，篮球将无处可去。

ES：或者，就像在 Sora 中一样，它可能会出现在某个地方，但随后就消失了。在尝试推进这项技术的过程中，你们面临的最大技术挑战是什么？

李飞飞：没有人解决过这个问题，对吧？这非常非常难。在 World Labs 的演示视频中，你可以看到我们用一幅梵高的画，以统一的风格生成了它周围的整个场景：艺术风格、灯光，甚至街区会有什么样的建筑。如果你转过身去，它就变成了摩天大楼，那就完全没有说服力了。它必须是 3D 的。你必须在其中导航。因此，它不仅仅是像素。

ES：你能说说你用来训练它的数据吗？

李飞飞：很多。

ES：你在算力负担方面是否面临技术挑战？

李飞飞：算力需求很大。这是公共部门无法负担的。这也是我很高兴能够以私营部门的方式来做这件事的部分原因。这也是我一直推动公共部门算力访问的部分原因，我的亲身经历强调了创新与充足资源的重要性。

ES：如果能赋予公共部门权力就更好了，因为公共部门通常更愿意为自己和人类的利益而获得知识。

李飞飞：知识的发现需要资源的支持。在伽利略时代，是最好的望远镜让天文学家观测到了新的天体。是胡克（Robert Hooke）意识到放大镜可以改进成显微镜，并发现了细胞。每当有新的技术工具出现，都有助于知识的探寻。而现在，在人工智能时代，技术工具涉及算力和数据。对于公共部门来说，我们必须认识到这一点。

ES：假设我们可以让人工智能系统真正理解 3D 世界，这将给我们带来什么？

李飞飞：它将为人们释放大量的创造力和生产力。我想用一种更高效的方式来设计我的房子。我知道很多医学用途都涉及到理解一个非常特殊的 3D 世界，也就是人体。我们总是在谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。我们还讨论了虚拟世界，它将允许人们参观地方、学习概念或娱乐。这些都使用 3D 技术，尤其是混合技术，我们称之为 AR。我想带着一副眼镜穿过公园，它能告诉我关于树木、小路和云的信息。我也想通过空间智能学习不同的技能。

ES：什么样的技能？

李飞飞：我举一个简单的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我需要打开一个“如何换轮胎”的视频。但如果我能戴上眼镜，看到我的车发生了什么，然后在指导下完成这个过程，那就太酷了。你还可以考虑烹饪，你可以考虑雕刻——有趣的事情。

ES：你认为在我们有生之年，我们还能在这方面走多远？

李飞飞：我认为这将在我们的有生之年发生，因为技术进步的步伐非常快。你们已经看到了过去 10 年带来的变化。这无疑预示着接下来会发生什么。

文章来源：学术头条