轨道交通智能技术导论：列车自主智能视感系统

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：智能视感是实现列车自主智能识别与决策的一项重要技术。语音播放器与数字显示器分别在语音指令和数字显示指令的作用下，实时播放和显示信号处理器的判定结果，因此使列车驾驶员在自主决策时能够及时、充分地掌握车辆行驶信息。

智能视感是实现列车自主智能识别与决策的一项重要技术。所谓“视感”，即将智能机器对外部景物进行认识和理解的整个动态过程分解为图像传感（采集）和视图感知两大部分，故称之为“视感”（intellectual visual perception，IVP）。以往“计算机视觉”也好，“机器视觉”也好，都是沿用了人类对人体生命科学尚不发达时期所生成的生理器官术语“视觉”而形成的，显然缺乏深层次的物理和生理科学的内涵。尽管“视感”与“视觉”仅有一字之差，但是前者却已充分显现出人脑器官对信息拾取所起到的重要且不可替代的作用。

图像传感（采集）就相当于人的眼睛及其视网膜上的杆状和椎状细胞，直接与外界通过光线进行联系，从而对周围环境做出最直接、最迅速的反应；视图感知相当于人脑中枢，由视网膜细胞产生信号传送至大脑的视感知区，来读取、分析光的信号，从而知道物体的远近、大小、颜色、形状等具体信息，还可以将成像进行联想、翻转等。不难想见，仅凭视图感知器，而没有图像传感器就无法获取图像信息，这好比一个人的大脑中视觉中枢完好，但是没有眼睛及其视网膜，或者眼睛与视网膜已经损坏，则无法感知周围的景物图像及其信息。同样，仅凭图像传感器也无法完成机器对外界景物形象的感知，这好比一个人即使眼睛及其视网膜完好，但是大脑的视觉中枢不健全或者视感神经缺损，仍然致盲。换句话说，要真正实现“基于机器视觉”的非接触式检测，必须通过图像传感器和视图感知器的完美结合才能得以完成，这就是“视感”二字的由来［23］。

1.系统硬件配置

要做到列车对前方路况的自主智能识别与决策，关键的技术在于为列车配置智能视感（又称计算机视觉），使得列车具有自主识别前方路况的功能。图2-9中的列车前方需要配置3个针孔摄像头。其中，1、2分别为设置于动车前照灯近下方的右、左摄像头；3为设置于动车前挡风玻璃框上沿正中位置的上摄像头。

pagenumber_ebook=60,pagenumber_book=51

图2-9　列车视感配置图

1—右摄像头；2—左摄像头；3—上摄像头。

所设置的摄像头为由固体图像传感器为核心部件组成的图像传感器。当前固体图像传感器主要有三大类：CCD图像传感器（charge coupled device），又称电荷耦合图像传感器；CMOS图像传感器（complementary metal-oxidesemiconductor，互补金属氧化物半导体），又称自扫描光电二极管阵列（self scanned photodiode array，SSPA）；CID电荷注入器件（charge injection device）。三者均是对光敏感的半导体器件，即利用感光二极半导体进行光与电的转换。

随着光电耦合电子集成技术的高度发展，由CMOS彩色图像传感器构成的长焦摄像头（包含光学放大结构）逐渐占据该技术领域的主导地位。CMOS彩色图像传感器的光敏单元和存储单元是光电二极管，电荷读出结构是数字移位寄存器，通过控制一组多路开关，顺序地把每个光敏单元上的电荷取出并送到公共视频输出线（或称视频输出总线）上。它最大的优点如下：①具有接近理想的光电传感特性，量子效率高，光谱响应宽，暗电流小；②由于光敏面覆盖了一层透明的SiO2，所以光反射损失小，也不存在光吸收损失；③形状尺寸设计灵活，可以做成环行面阵列，方便检测；④抗辐射能力比CCD大很多倍；⑤体积可以做得非常小，便于隐蔽安装，不占空间。

除了摄像头之外，视感系统还需要配置信号处理器和控制器。由摄像头（图像传感器）、信号处理器、控制器、语音播放器和数字显示器等构成的视感系统原理如图2-10所示。这些图像传感器实时地采集车辆前方的景物图像，并将所采集到的图像通过图像信号传输线输入至信号处理器。信号处理器是智能算法软件的载体，事先已经固化智能算法程序，是车载智能视感技术的核心硬件。

pagenumber_ebook=60,pagenumber_book=51

图2-10　车载视感系统原理框图

如图2-11所示为适用于多图像采集通道的处理器模块。图中，当图像传感器的输出为模拟图像信号时，视感系统中的信号处理器一般由图像输入通道A1～A8、模数转换模块B1～B8、图像处理程序模块C、控制指令输出模块D、语音指令输出模块E、数字显示指令输出模块F和数字信号输入模块G组成。智能算法程序被固化于图像处理程序模块C的CDROM中。

pagenumber_ebook=61,pagenumber_book=52

图2-11　信号处理器结构框图

A1～A8—图像输入接口；B1～B8—模数转换模块；C—图像处理程序模块；D—控制指令输出模块；E—语音指令输出模块；F—数字显示指令输出模块；G—数字信号输入接口。

接收到的每幅图像首先经图像输入通道输入至模数转换模块被信号处理器转换为数字图像信号。数字图像信号经智能算法程序的处理、识别后，实时对被采集图像的物体特征做出准确判断，并生成系列指令交由控制指令输出模块D、语音指令输出模块E和数字显示指令输出模块F输出。

控制器一般包括通道开关（电子开关）和数模转换器。信号处理器输出的控制指令可以包含通道选通指令和伺服驱动数字信号。在通道选通指令的作用下，特定的通道开关被选通，伺服驱动数字信号即沿着被选通的通道进入数模转换器转换为模拟驱动电压信号，用于驱动伺服机构。在控制器的驱动下，视感系统能够准确操纵列车的正常行驶，并能够实时禁止人为的错误操作。语音播放器与数字显示器分别在语音指令和数字显示指令的作用下，实时播放和显示信号处理器的判定结果，因此使列车驾驶员在自主决策时能够及时、充分地掌握车辆行驶信息。

数字信号输入模块G用以接收其他车载传感器传送给信号处理器的数字信号，如车速数字信号等。

2.系统基本工作过程

列车视感系统的智能算法程序较有代表性的运算流程如图2-12所示。其中，图像处理包括图像增强与滤波、图像边缘检测、图像二值化处理和图像分割等。图像增强的目的在于改善图像的视觉效果，便于人工或机器对图像的观察、分析和处理。图像边缘检测、图像二值化处理和图像分割等需要根据具体的对象及其技术目的来确定是否需要进行相关计算（全部或部分计算）。

pagenumber_ebook=62,pagenumber_book=53

图2-12　智能算法程序流程

视感识别中最关键的算法是如何实现物体图像信息特征的提取，也就是要从一幅蕴涵着目标物体信息的图像中寻找出其中的性能特征，并根据其性能特征的类别属性进行识别，进而实现对目标的识别。图2-12中的图像特征提取涉及的面很广，它和被识别物体的各种物理的、形态的性能有很大的关系，因而有着各种各样的不同方法（算法）。图像特征可以从全局着眼，也可以从局部提取。着眼于图像局部特征的目的在于大幅度地减少识别过程的运算量，这种识别基本思想特别适用于行驶中的列车对目标物体进行识别的快速运算。

特征提取是一种基于特征量的统计模式识别方法，主要包括两大步骤：一是提取可表示模式的特征量，二是在特定的分类准则下，确定待识别目标物体所属的类。特征识别，实际上就是实现目标类别的判定问题。图像特征识别与匹配的基本主程序流程如图2-13所示。其中，分类方法1是基于机器学习理论的模式识别分类方法；分类方法2是基于模板匹配相似度的分类方法。公共点匹配、三维重建和空间点坐标确定是对被识别景象目标的立体尺度检测步骤。只有对目标物体进行识别的同时，又完成对目标物体的立体尺度测量，才能说明对目标物体实现了完整的识别过程。

pagenumber_ebook=62,pagenumber_book=53

图2-13　图像特征识别主程序流程

以下结合列车智能视感的具体功能进一步阐述其技术实现方法，以便加深对图2-13所示识别过程的理解。

3.对前方路况智能识别的实施条件

车载视感系统中的信号处理器集中处理来自摄像头1、2所采集的图像（见图2-9）。在最初设置摄像头的同时，已经在车辆上建立坐标系（见图2-14），并对两摄像头的内外参数实施标定［24］。图2-14中的虚线表示每个摄像头各自的视场范围。只要车辆进路，车载视感系统即刻处于工作状态：摄像头实时采集前方道路景物图像，左右视图并行通过图像通道送至信号处理器。信号处理器中的算法软件对左右视图进行处理、识别与理解，根据运算结果做出准确判定。

pagenumber_ebook=63,pagenumber_book=54

图2-14　识别路况的坐标设定法

所谓摄像机内、外参数的标定是视感检测技术的一项基础工作，因为空间物体的几何信息是由摄像机成像的几何模型参数和摄像机所处的位置参数来决定的。在大多数条件下这些参数必须通过实验和计算得到，我们称这个确定摄像机参数的过程为标定。尽管，利用摄像机坐标变换关系，通过对图像的畸变矫正过程能够同时获得摄像机参数的标定，但是，不同的计算机视感系统有着不同的精度要求，所要标定的参数也不尽相同，因此采用的标定方式也会有所不同。若需要较高的测量精度，则需要采用较复杂的成像模型，并且在标定过程中需要高精度的辅助标定参照物。鉴于在虚拟环境中，几何模型只用于表示物体的基本结构，而不表示物体表面的细节，因此在一般情况下，要求摄像机的标定过程应当简单快捷。对于摄像机参数的标定，根据系统需求的不同，有多种不同的标定算法。根据标定过程中是否采用标定参照物，一般将标定算法分成传统标定算法和自标定算法两大类。

4.物体特征提取与外极约束原理

智能识别路况的关键点在于计算空间特征点的三维坐标。其中，基于双目视感系统（即由两个摄像头构成的视感系统）的空间点三维坐标的计算主要依靠外极线几何约束理论（简称外极约束）来实现［25］。

所谓外极线几何约束，就是指左视（或右视）图像上的任一点，在右视（或左视）图像上的对应点只可能位于一条特定的直线上，称为右外极线（或左外极线）。这个约束原则极大地降低了待验证的可能匹配点对的数量，把一个点在另外一幅图像上可能匹配点的分布从二维降低到了一维，因此可以降低计算量、提高识别运算的速度。根据上述原则，从两幅或者多幅的二维图像来重建三维图像时，通常采用外极线约束原则对两幅图像上的景物投影点是否匹配进行判断。可以说，极线约束是寻找左右视图中两个对应点的基本理论依据。

如图2-15所示，左、右摄像机交叉摆放，P是从左摄像机和右摄像机同时观测到的同一个三维景物的点，Ol、Or分别为左、右摄像机的光心；Πl、Πr分别为左、右摄像机的归一化虚成像平面，P点在Πl、Πr上的成像点分别为pl和pr，pl=［xlyl1］T，pr=［xryr1］T。右、左摄像机光心分别在左、右归一化成像平面上的像点el、er称为左、右虚成像平面上的外极点。空间点P的归一化虚成像点pl、pr必须分别处在空间点P和左右透视中心Ol、Or构成的平面上，称为外极平面。外极平面与左、右摄像机两个虚成像平面相交的两根直线被分别称为左外极线和右外极线。共同观测点P的左、右两条外极线分别通过点pl、el和点pr、er。

pagenumber_ebook=65,pagenumber_book=56

图2-15　外极几何学原理图

当双目视感系统的左、右摄像机对OlP连线上的点继续进行观测，如P1、P2、P3，虽然P1、P2、P3三点在Πl上的成像点均为一个点pl，但是在Πr上的成像点将分别为p1r、p2r、p3r，并处于右外极线erpr的连线上；反之亦然，这就是外极线约束原理。

同理，当P在空间的位置发生变化时，或者说，双目视感系统的观测点发生改变时，新的被观测点P*在Πl、Πr上的成像点和必然分别处于对应的两根外极线上。此时，OlP*上的所有点在Πl上的成像点重合为，在Πr上的成像点（i=1，2，…，∞）必然分别处于er的外极线上；反之，OrP*上的所有点在Πr上的成像点重合为，在Πr上的成像点（i=1，2，…，∞）必然分别处于的外极线上。

5.基本算法步骤

实现路况自动识别的核心算法通过图像处理程序模块中的智能算法程序予以实现，具体步骤如下。

1）景物图像的采集

两个摄像头，即双目视感系统的图像传感器，实时采集车辆前方路面景物图像，并将各自所采集到的图像沿着对应的图像传输通道输送至信号处理器。

2）消除图像畸变

对左、右视图分别进行去除畸变处理。也就是说，由各自的计算机图像坐标系的像素点坐标计算出点对pl、pr在对应归一化虚成像平面图像坐标系的畸变点坐标（xld，yld）、（xrd，yrd），并将（xld，yld）、（xrd，yrd）分别代入图像畸变矫正数学模型，即

pagenumber_ebook=65,pagenumber_book=56

通过求逆运算，获得矫正畸变后的归一化虚成像平面图像坐标系的理想点坐标（xlu，ylu）和（xru，yru）。式（2-3）中，；式（2-4）中，；kl1、kr1分别为左、右虚成像平面中的低阶径向畸变系数。

再用理想点坐标（xlu，ylu）、（xru，yru）分别替代（xld，yld）与（xrd，yrd）的值代入方程

pagenumber_ebook=66,pagenumber_book=57

求出点对pl、pr的新坐标值，即新的像素点位置。

式（2-5）和式（2-6）中，dx、dy分别为虚成像平面上x、y方向上单位像素间的距离；sx为y、x方向像素直径比，即纵横比；cx、cy为摄像机光心在计算机成像平面上的像素坐标；式（2-3）～式（2-6）中的脚标l、r分别代表左、右摄像机（下同）。

左、右摄像机的计算机图像坐标系中所有像素点坐标（il，jl）、（ir，jr）逐一经过上述计算后，就能够获得像素点在画面上的理想排列，即真实景物图像的恢复，或者说，获得一幅反映真实景物的左、右视图理想图像。

所谓归一化虚成像平面，即抛开了光学成像的物理概念，将成像平面建立在位于镜头前方单位焦距处的一个虚拟位置上。与摄像机物理成像平面相比，其优点如下：①采用了实际的距离单位而不是像素，排除了在多目视感系统中可能因为采用不同图像传感器、镜头焦距和图像分辨率等参数而造成标定和计算上的困难。②由于光轴通过坐标系的原点，因此没有物理成像平面的光轴和原点偏离的问题。③由于归一化，因此便利了矩阵系统的运算，承担了变换的中介角色。④归一化虚成像平面上的成像点在摄像机坐标系中的坐标（x，y，1）即为二维坐标p（x，y）的齐次坐标，将物点投影到归一化虚成像平面上可以看作对二维齐次坐标的规范化。⑤如果将成像平面建立在并不存在的镜头前的虚成像平面上，解决了数学模型不直观的问题，因而简化了问题的讨论方式，又保证了讨论问题的准确性。

图2-16所示为车载1、2摄像头所采集到的并经过去除畸变后的车辆前方路况的左、右两幅视图。(www.daowen.com)

3）对公共特征点的寻找与匹配

要确认车辆前方路面上是否存在车辆，必须对左、右两个视图中的公共焦点进行寻找和匹配［26］。为此，先截取视图窗口（见图2-16），窗口的大小以摄像头的光轴为基准向上、下、左、右扩张，取一定像素个数构成。其中，横向（列像素）以正好监视列车轨道宽度的列数N为宜；纵向（行像素）以识别运算周期所能允许的最大行数M为上限，因此构成M×N的左、右视图同等大小且像素坐标一一对应的窗口。

pagenumber_ebook=67,pagenumber_book=58

图2-16　车辆实时采集到的道路前方图像

（a）去除畸变后的车辆前方道路左视图；（b）去除畸变后的车辆前方道路右视图

在被截取的窗口中，采用基于图像灰度的特征点检测算法，主要通过计算曲率及梯度的方法，来寻找若干个特征点，作为代表最具特征的边缘点。再针对已经寻找出来的特征点在外极线约束原理的指导下，于左、右视图中寻找相互匹配的角点。

以图2-17所示车辆为例，图中前方车辆特征点b分别处于左、右视图中的外极线Ll与Lr上。b点就是通过上述外极线约束条件自动寻找到的左、右两个视图的公共特征点之一。

pagenumber_ebook=67,pagenumber_book=58

图2-17　双目视图的外极线约束实例

（a）左视图；（b）右视图

4）物点三维坐标值的确定

确定物点三维坐标所涉及的坐标系及其相互间的关系，即针孔摄像机几何模型，如图2-18所示。

pagenumber_ebook=68,pagenumber_book=59

图2-18　摄像机几何模型

图2-18中，世界坐标系OWXWYWZW需要根据具体环境来确定坐标轴的方向和原点的位置，（XW，YW，ZW）表示物点P在世界坐标系下的三维坐标；摄像机坐标系ocxcyczc，原点oc定义在摄像机镜头的光心上，xc、yc轴位于镜头平面上且互相垂直，zc轴与光轴重合，（xc，yc，zc）表示物点P在摄像机坐标系下的三维坐标；计算机图像坐标系oijij，原点oij位于CCD图像平面的右下角，实际的成像平面在摄像机坐标系的zc=-f处，f为摄像机的有效焦距，i和j分别表示像素的列数和行数，单位为像素（pixel）；i、j轴分别与x、y轴平行，且方向相反，这和针孔成像的“倒立”现象是一致的，代表摄像机在输出CCD信号的时候，对于信号做了横向和纵向翻转，pij为空间点在计算机图像坐标系oijij上的投影成像点；归一化虚成像平面坐标系oxy，原点o定义在摄像机光轴与单位焦距平面zc=1的交点处，pu（xu，yu）表示P点在归一化虚成像平面上的理想成像点坐标，pd（xd，yd）是因透镜径向畸变引起的偏离pu的实际成像点坐标。

左、右视图中相互匹配的角点在计算机图像坐标系oijij中的表达为pl=［iljl］T、=［irjr］T，通过对世界坐标系的映射关系

pagenumber_ebook=68,pagenumber_book=59

或求取空间物点的三维坐标P=［XWYWZW］T的过程如下：

（1）将=［iljl］T代入式（2-5）或式（2-6）左边时，能够求得左视图对应空间点的坐标PWl=［XWlYWlZWl］T；

（2）将=［irjr］T代入式（2-5）或式（2-6）右边时，能够求得右视图对应空间点的坐标PWr=［XWrYWrZWr］T；

（3）最后求得空间点坐标PW=［XWYWZW］T，且PW=（PWl+PWr）。

在式（2-7）和式（2-8）中，zc为“非零比例因子”，保证两边齐次坐标的规范化，有时也用字母s表示；3×3矩阵 pagenumber_ebook=69,pagenumber_book=60 描述了两个坐标系之间的旋转关系，其行向量和列向量都是单位正交向量。R是一个正交矩阵，因此只有3个自由度。列向量t=［txtytz］T，描述了坐标系之间的平移关系，被称为平移向量，有3个自由度。

3个旋转参数和3个平移参数组成的6个参数称为外参数。外参数描述了摄像机和世界坐标系的位置关系，也描述了两个坐标系之间的转换关系。［R t］这个3×4的矩阵称为外参数矩阵。 pagenumber_ebook=69,pagenumber_book=60 ，其中cx、cy为光心o在计算机成像平面上的像素坐标，即光心坐标（cx，cy）；fx、fy为逻辑焦距，其数值与实际焦距f有关。虽然摄像机的光学成像系统只有一个物理焦距，但是表现在图像上可能有两个不同的逻辑焦距，fx、fy又称为计算机图像坐标系上i轴和j轴上的尺度因子。3×3矩阵K为内参数矩阵，其中所含元素fx、fy、cx、cy为摄像机的内参数。

在式（2-8）中，3×4矩阵M=K［R t］完成了从三维坐标PW=［XWYWZW］T到二维坐标p=［i j］T的投影过程，即R3⇒的几何投影，所以M称为投影矩阵。

从式（2-7）进一步可以看出，因为投影矩阵是由内参数矩阵（4个自由度）和外参数矩阵（6个自由度）相乘而得，因此共有10个自由度［27］。

5）间距计算原理

利用外极线约束原理快速确定被匹配目标上任意一个公共特征点。根据寻找到的公共特征点在虚成像平面上的对应点，应用视差原理直接计算该公共特征点与自身车辆的距离［19］。

（1）视差原理。

双目视感是模拟动物双眼视觉的一种机器结构。双视几何学是双目视感检测的理论基础。为讨论问题方便，假定两个摄像机在一水平面上平行排放，即两个摄像机的光轴相互平行。如图2-19所示，两个摄像机的虚成像平面相互重叠而成为一个公共虚成像平面Π。令Ol、Or分别为左、右两个摄像机的光学中心位置（即透镜中心，简称光心），两个摄像机逻辑焦距均为f。

pagenumber_ebook=70,pagenumber_book=61

图2-19　视差测距原理图

假定物体上的点P在左、右两个摄像机的图像平面（虚成像平面Π）上的投影点分别为Pl、Pr；从P到OlOr连线作垂线，AP、OP分别为该垂线与虚成像平面Π及OlOr连线的交点；过Ol、Or向虚成像平面Π作两根垂线，分别与虚成像平面Π相交于点Al和Ar。

从图中相似三角形可得

pagenumber_ebook=70,pagenumber_book=61

此处，|·|表示两点间的线段长度。

令，|POP|=a，|APOP|=|OlOr|=b，|AlPl|=l，|ArPr|=r，|PrAP|=c，则式（2-9）与式（2-10）分别又表达为

pagenumber_ebook=70,pagenumber_book=61

联立式（2-11）与式（2-12）得

pagenumber_ebook=70,pagenumber_book=61

代入式（2-11）得

pagenumber_ebook=71,pagenumber_book=62

式中，（l-r）为双目视差。

由此可见，景物的深度信息，即待测距离a与两个摄像机光心间距b、成像焦距及两个摄像机的视差（l-r）有关。由于两个摄像机光心间距b和成像焦距通过摄像机参数标定，事先可以确定，属于已知量，因此，两个摄像机的视差（l-r）就成为能够确定景物深度的唯一因素。成像焦距与两个摄像机的视差（l-r）计算单位为像素，两个摄像机光心间距b计算单位为实际距离。