1.出行过程
出行服务设计问题是对旅客出行全过程中各类服务进行挑选,并对所挑选服务进行时空顺序编排的研究。传统的出行设计问题,无论是对人还是货物的出行过程进行规划,大都从空间维度或时空维度进行路径设计,所考虑的服务限于出行过程中的交通行为。然而,旅客出行的实际过程是由多种出行行为组合而成的,既有研究所考虑的维度不够全面,尚不能完全适应旅客出行的全程化要求,为出行者设计相应的出行方案。出行服务设计问题的结果是设计出了覆盖全程的出行方案,但不同旅客对出行方案的偏好是不同的。比如,有人希望出行准点率高,有人希望票价尽量低,有人希望出行环境舒适,等等;旅客的需求各异,且对不同需求的敏感程度也不相同。这些个性化需求在出行服务设计阶段或不能完全考虑,或不是主要优化目标,因此有必要针对出行者的个性化偏好,对旅客出行方案的质量水平进行评价,进行旅客出行服务评价问题的理论研究。旅客出行服务设计问题是根据旅客出行需求对出行过程中各类行为的衔接方案进行设计的优化决策问题。旅客出行的全过程是出行者从起点到终点间一系列行为的顺序组合。这些行为占据一定的时间区间和空间区间,且存在不同的表现形式,如乘车、住宿、观光、商务活动等。以图8-15为例,该图描述了一个典型的旅客出行物理过程,从起点到终点共经过了7个中间地点,进行了乘车、住宿、观光和换乘等8项行为。
图8-15 旅游者出行全过程
2.出行轨迹
(1)轨迹数据
图8-16 旅游者时空数据的多维结构图
在人们通过旅游探索周围世界的过程中,获取信息的范围也在逐步地慢慢扩大,从二维平面空间标准(x,y)到三维立体空间标准(x,y,z),再到反映旅游者个体移动轨迹的四维标准(x,y,z,t),分析研究的复杂度也大大增加。二维平面数据和三维立体数据都属于空间数据,时空数据主要是指同时具有时间元素以及空间元素的数据,并且空间元素的数据会随着时间的变化而变化。
时空数据是描述处于地理环境中的个体空间特征及其属性特征随时间变化的信息。根据时空数据概念和内涵可得,时空数据主要具有三大特征,包括时间、空间以及属性特征,这是时空数据具有多维性特征的具体表现(如图8-16所示)。旅游活动轨迹数据是时空数据挖掘中的一种,也是最主要和最重要的一种。轨迹数据是在时空环境下,对移动对象的运动过程进行采样,采样的信息主要包含地理位置信息、移动个体的属性信息以及时间信息,将这些信息按照时间顺序连接起来就是轨迹数据,属性信息主要包含采样点速度、位置以及时间等。
轨迹数据的主要来源有以下几方面:通过无线信号定位手机所在的地理位置,可以记录数据,将这些采样点连接起来,就能够获得手机终端持有者的移动轨迹数据;通过RFID标签技术能够讨物体进行标记,并且可以进行位置定位和数据记录,将物体的移动轨迹按照这种方法就可以移动物体的轨迹数据;卫星和无线网络,以及定位仪器设备技术快速发展,大量移动物体的轨迹数据涌现出来,比如天气数据、交通数据、人员或者车辆的移动数据、动物活动数据等。这些轨迹数据主要按照时间和空间的位置序列和采样点的语义进行标注,通过对轨迹数据进行研究,能够挖掘出移动物体相关运动的新的未知知识,这一研究注定会成为未来的热点和应用增长点。
(2)时空轨迹数据获取方法
通过全球定位系统和无线蜂窝网,人们能够方便地获得各种移动物体的轨迹数据。使用基于位置的服务不仅可以将自己的移动过程以移动轨迹的形式记录下来,还可以获得各种便捷的服务。数据来源有以下几种:出租车轨迹、行人轨迹、公共交通轨迹以及带有地理信息的网络照片轨迹。具体信息如表8-6所示。
表8-6 轨迹数据信息
(www.daowen.com)
轨迹数据挖掘的主要方法如下所示:统计分析方法——有很多算法能够直接应用到轨迹数据挖掘中,比如群体模式分析、目标预测以及行走规律等。不同的方法能够获得不同的时空规律或者统计特征,或者是对移动个体的运动目标进行预测等。在实际应用中需要按照不同的场景,选择合适的统计分析方法。再者,统计方法在很多情况下更适合于数据的处理以及模式的提取,因此大多数情况下,统计方法不能单独使用,而是和其他挖掘分析方法和技术相结合。时空聚类方法——将轨迹数据划分为不同的类别时,不需要在模型法以及基于栅格的方法。基于密度的方法的内涵是将密度较大的区域划为单独的类,与其他聚类方法相比,此方法可以发现任意形状的簇。基于距离的方法主要采用的是迭代法,根据点之间距离的远近决定某个点到底归属于哪个类别,距离是预先设定好的,不同的数据中,距离不同,在轨迹数据中经常使用的距离包括地面距离以及用户行走点之间的间隔时间。基于层次的方法可以分为凝聚法以及分裂凝聚法,凝聚法的主要思想是自下而上合并比较小的类,分裂法是自上而下将比较大的类分割成比较小的类;基于层次的方法在轨迹数据的聚类中不经常使用。栅格的方法主要通过划分数据的单元格来发现类,这类方法在轨迹数据挖掘中经常使用,因为根据道路交通网,城市已经被划分成了很多个单元格。时空孤立点检测——在轨迹数据中,孤立点指的是数据的特征值与周围时空环境中其他数据的特征值有显著的不同的点,通常的处理方法是将这类点当作噪声点忽略不计。在现实应用中,孤立点不仅包括地理位置点,也包括行为人或者区域。轨迹数据中孤立点不同于传统孤立点,在轨迹数据中,用户按照自己的意图选择数据,那些所谓的异常点能够反映出用户真正的需求,因此在轨迹数据挖掘中需要研究新的方法来探索孤立点在轨迹数据中的作用。除了识别数据中的孤立点外,轨迹数据中的孤立点检测还经常用于寻找异常事件之间隐含的潜在规律,比如交通拥堵点是异常数据,通过挖掘发现交通拥堵点的潜在规律不仅有助于人们出行,还有助于政府部门对交通的合理规划。计算机几何分析方法——包括几何优化、几何基元和几何查询等。
(3)轨迹数据挖掘发现的知识类型
轨迹数据能够反映人类在现实生活中的活动情形,从一定程度上,这些活动可以体现出用户个性化的意图、行为方式以及喜好,甚至能够反映出他的生活规律等比较私人的信息。比如某用户的轨迹经常在运动场地出现,这就表示此用户很可能比较喜欢锻炼身体或者爱好体育运动;如果某用户的轨迹经常经过山水景点,表示此用户对户外活动非常喜好,在此基础上通过分析在这些地方轨迹数据分布的时间和空间特性就能够得到用户喜好的程度。根据用户经常出游的景点类别判别用户的喜好类型。因此,挖掘轨迹中蕴含的潜在信息就变得很重要。轨迹数据挖掘能够发现的知识有如下几方面:分布规律——由于地域的限制,轨迹在空间的分布很不规则,可能会出现不规则的多边形,因为用户不可能跨越交通网的限制随意行走,人类行走的轨迹经常和道路交通网相契合,因此不能建立统一的模型对所有的轨迹进行统一的分布规律分析,必须在不同的地域建立相应的数学模型对轨迹数据的分布规律进行研究。特征规则——轨迹特征规则是指对某类轨迹移动个体的共同特征的描述,这些共同特征主要包括移动个体所处的位置、轨迹的走向、变量间的关系等,如何正确判断轨迹的走向,或者特征间的相互联系是目前研究的热点和难点,特征规则是移动个体最基本的信息,不同类别的轨迹具有不通过的特征属性。通过研究这些规则可以为行走模型的建立提供有力的支持。聚类规则——轨迹聚类规则是根据移动个体特征、轨迹特征或者其他属性把移动个体、轨迹或者其他个体进行划分为不同的类,在同一类别中,数据的差别尽可能小,在不同类别中,数据的差别尽可能大。因为聚类能够发现新知识,所以在聚类之前并不知道要将轨迹或者用户划分为何种类别,也不知道每个类中轨迹数据或者用户的特征。聚类之前需要对聚类的距离进行定义,比如根据道路交通中发生的事故频率将道路聚类成不同的区域,在这里,交通事故发生的频率就是距离。根据轨迹相似度的将轨迹或者用户进行聚类,则轨迹相似度就是对应的距离。
(4)轨迹数据挖掘过程
分析数据的过程与传统数据挖掘流程相类似,发现知识的过程如图8-17所示:数据抽取——在实际应用中,不是所有的数据变量都适用十数据挖掘,因此通常需要根据轨迹的数据挖掘任务从原始粗糙的数据库中抽取与现实相关联的数据变量,这样不仅提高了结果的精确度,也减少了研究人员的工作量;数据预处理——所有的轨迹数据中都会包括大量冗余的、错误的、不一致数据,尤其是照片轨迹,导致这种数据出现的原因很多,可能是设备原因,也有可能是用户的原因。在数据建模之前,需要对轨迹数据进行预处理,这样可以保证轨迹数据挖掘结果的正确性,预处理主要包括消除冗余的数据、填充缺少的数据、删除不一致的数据、选择合适的数据等;数据变换——在研究过程中,大部分的轨迹数据挖掘算法在现实应用中都不能被直接应用,哪怕将数据进行预处理后,某些数据仍然不能被直接应用,比如几个变量间的数量级相差很远,这样就需要对数据进行标准化处理,这就是一种数据变换的方法。其他数据变换方法还包括如数据归约、投影变换等;数据挖掘——根据不同任务要求和应用场景,选择不同的数据挖掘算法,从大量数据中提取知识模式,并以一定的方式把发现的知识和规则表达出来,这样便于理解和应用。选择挖掘算法的标准有很多方面,包括运算成本,运算精确度以及时间和空间复杂度,具体如何选择需要视情况而定;模式评估——通常情况下,轨迹数据挖掘所获得的知识和结果并不都是非常正确的,这就需要使用者或研究者们对发现的知识进行评估,判定哪些知识真正有效,哪些对现在研究的内容没用,选择出最合适的结果,并且对于那些不正确或者精确度不高的数据重新进行挖掘。
图8-17 时空数据挖掘过程
(5)基于轨迹挖掘的应用
基于个人历史时空轨迹,判别交通方式。旅游者在移动过程中可能会乘坐不同的交通工具,比如地铁、公交车或者是自驾。有时在同一次的移动过程中也会更换自己的交通工具,比如先步行后乘坐公交车然后地铁,最后步行。合适的算法可以通过分析旅游者的行走规律以及GPS轨迹特征,自动学习出旅游者在出行过程中选用的交通模式,这样对城市交通的规划以及路线推荐都将有重大的帮助。
频繁模式,挖掘个人的生活习惯和行为特征规律,通过挖掘旅游者的个人历史轨迹的频繁模式得到。通过这项分析,基于位置的服务商可以为旅游者提供更个性化和更便捷更深入的服务。挖掘旅游者历史轨迹中频繁模式的算法有很多种,比如FP-growth,Closet+等。比如某旅游者经常在某个时间段去一个固定地点,另外一个旅游者经常在某个时间段行走哪条路线等。将这些频繁模式进行组合和连接,就可以发现表明旅游者生活特征和行走规律的顺序模式。比如,一般情况下旅游者A在周末下午去电影院看电影,晚上和朋友出去唱歌。
轨迹中重要区域的挖掘。旅游者的兴趣爱好和个性化都可以通过历史轨迹中的重要区域反映出来,也为基于位置的服务商以及政府机构的决策提供了更好的技术支持。这些信息可以给旅游者对周围的环境和地理信息有更多的理解,并且可以提供更方便快捷的基于位置的服务。轨迹中重要区域点的检测是机构和研究者在确定旅游者任务时必须要搞清楚的信息,也可以用来建立预测旅游者未来行为的模型以及轨迹相似度分析的模型。
发掘兴趣点和旅行专家。在挖掘经典旅游区域以及行走路线之前,必需要对不同旅游者的历史轨迹数据进行建模。比如将地点按照兴趣度进行排名,将人物按照经验值排名,从而可以将排名较高的区域或者人推荐给旅游者。区域兴趣度——某个区域的兴趣度不单单由访问过这个地方的人数决定,也取决于其他因素,比如访问这些地点的人的经验值,或者照片的数量等。比如,公交车站每天人来人往,很有可能成为访问人数最多的地方,这显然不是旅游者希望得到的区域推荐。但是,经验丰富的旅行专家不会将公交车站作为景点进行游览,也不会再公交车站进行拍照。因此,想要准确计算真正准确的区域兴趣度不能仅仅考虑一个因素,而要进行综合分析。相关性——人的经验值、拍照数量和区域的兴趣度有相互关联的关系。越有经验的人越可能去有趣的地方,并且在经典的景点多拍照,相反,有趣的区域也会吸引更多有经验的人来访问。区域性——一个人的经验值跟他所处的地域有关。比如,一个地道的北京人可能非常了解北京,但对云南可能却一无所知。同理,一个云南的旅行专家,很可能对北京也不了解。因此,要在不同的区域中计算经验值和兴趣度,即一个人具备多个与区域相关的经验值。在不同的区域中,选择不同的经验值对一人排名并进行专家推荐。
基于历史轨迹的人的相似度计算。轨迹隐含了人的行为和喜好,人们在地理空间移动轨迹的相似性,在一定程度上能够反映人之间喜好的相似性。GPS轨迹相似度的计算对现实意义有很强的指导作用。旅游者相似度对客户、商业化企业以及地理信息系统等都具有举足轻重的作用,而地理位置上的旅游者相似度完全依赖于轨迹相似度的计算。一方面,旅游者可以轻松找到和自己具有相似区域以及行走轨迹的志趣相投者。另一方面,通过分享志趣相投的信息,旅游者可以轻易得到符合自己兴趣爱好的位置信息以及推荐信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。