理论教育 洞察视觉系统的计算复杂性及进化历程

洞察视觉系统的计算复杂性及进化历程

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:然而,也正是这种良好的视觉,导致我们完全忽视了视觉系统背后巨大的计算复杂性,大自然经过数亿年的进化才解决了这个问题。他于1977 年将研究重点从分子遗传学转向神经科学,并专注于寻找视觉意识的神经关联。能够和当时最伟大的视觉科学家之一共事,我感到万分荣幸。图5-1猕猴视觉系统的信息流动示意图。猕猴的视觉感知与我们人类的相似,我们也有相同的视觉处理阶段。

在我上幼儿园之前,最早期的记忆中有这么一个场景——我盯着一堆拼图,以形状、颜色和图案为线索来匹配它们。我的父母会在聚会上夸耀他们还在蹒跚学步的儿子能够快速熟练地完成拼图,而那些朋友常常对此表现得很惊讶。我那时还没有意识到,我的大脑正在完成它最擅长的工作—— 通过模式识别来解决问题。科学充满了各种各样的问题,就像拼图中缺失的部分和对拼合后画面的模糊提示。大脑如何解决问题,是终极谜题。

亥姆霍兹俱乐部(The Helmholtz Club)是南加州视觉科学家们组成的一个小团体。这些科学家来自加州大学圣迭戈、洛杉矶和尔湾三个分校,以及加州理工学院和南加州大学,他们每个月都会找一个下午在加州大学尔湾分校会面。1赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)是19 世纪的一位物理学家和医生,他发明了一套关于视觉的数学理论和实验方法,构成了我们当今理解视觉感知的基础。作为俱乐部的秘书,我要负责从组织外部邀请一位嘉宾,为这15~20 名成员以及他们的客人进行演讲,然后由俱乐部成员做第二个演讲。演讲是互动性质的,大家有充足的时间进行深入讨论。有一次,一位外部演讲人对那些提出问题的人表现出了惊讶:“他们还真是喜欢刨根问底。”这些每月的例会让参与者收获了顶尖思维,几乎就是一堂堂视觉领域的大师课。2

视觉是我们最敏锐,也是被研究得最多的一种感官。前额下方的眼睛带给了我们精准敏锐的双眼深度知觉,而我们的大脑皮层中一半的部分都是负责视觉的。“眼见为实”这句成语就充分体现了视觉的特殊地位。然而,也正是这种良好的视觉,导致我们完全忽视了视觉系统背后巨大的计算复杂性,大自然经过数亿年的进化才解决了这个问题(如第2章中所述)。视觉皮层的组织结构为最成功的深度学习网络提供了灵感。

在1/10 秒内,我们视觉皮层中的100 亿个神经元并行工作,能够在杂乱的场景中识别一个杯子,即便我们以前可能从未见过那个杯子,也不论它在什么位置,多大尺寸,以什么角度面对我们。在普林斯顿大学读研究生时期,我对视觉研究十分着迷,并且在查尔斯·格罗斯的实验室工作了一个夏天。他研究过猴子的下颞叶皮层(见图5-1),并在那里发现了对复杂对象,如脸部,以及著名的马桶刷,产生反应的神经元。3(www.daowen.com)

在哈佛医学院神经生物学系的时候,我曾与斯蒂芬·库夫勒一起工作,他之前发现了视网膜中的神经节细胞编码视觉场景的方式。如果不是在1980 年过世,他可能会与大卫·休伯尔和托斯坦·威泽尔一起分享1981 年的诺贝尔生理学或医学奖。在1989 年转到索尔克研究所后,我开始与弗朗西斯·克里克合作。他于1977 年将研究重点从分子遗传学转向神经科学,并专注于寻找视觉意识的神经关联。能够和当时最伟大的视觉科学家之一共事,我感到万分荣幸。

图5-1 猕猴视觉系统的信息流动示意图。箭头表示视觉区域的投影信息从视网膜开始,到达视觉处理的每个阶段都有若干毫秒的延迟。猕猴的视觉感知与我们人类的相似,我们也有相同的视觉处理阶段。LGN(lateral geniculate nucleus):外侧膝状体;V1;初级视觉皮层;V2:次级视觉皮层;V4:视觉区4;AIT 和PIT;前下颞叶皮层和后下颞叶皮层;PFC:前额叶皮层;PMC:前运动皮层;MC:运动皮层。图片来源:S.J.Thorpe and M.Fabre-Thorpe,“Seeking Categories in the Brain,”Science 291,no.5502(2001):261。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈