共享经济平台在运营中积累了大量的数据,形成了具有巨大价值的大数据资源。以滴滴平台为例,目前滴滴已成为整个中国甚至全球发展最快的互联网公司。滴滴平台拥有3亿用户,在中国400多个城市里开展服务,司机超过1400万,1400万的司机是整个中国所有机动车总量的10%。每天服务的订单超过1300万个,这个订单量让滴滴成为仅次于淘宝的中国第二大互联网交易平台。[4]
滴滴的成功之道就在于大数据。2016年,滴滴平台每天产生超过50TB的数据,超过90亿次路径规划。在2015年,滴滴出行平台完成14.3亿个订单;累计行驶里程达128亿公里,累计行驶时间达4.9亿小时。[4]为此,滴滴在2015年5月成立机器学习研究院,2016年4月又将其升级为滴滴研究院,专注于大数据技术研发,大数据支撑滴滴海内外业务拓展,积极挖掘自身交通大数据。
(一)共享经济平台数据管理策略
1.滴滴数据管理演进
滴滴的核心业务是一个实时在线服务,因此具有丰富的实时数据和实时计算场景。随着滴滴业务的发展,滴滴的实时计算架构也在快速演变。滴滴数据管理演进大概经历了三个阶段:业务方自建小集群阶段,集中式大集群、平台化阶段和SQL化阶段。[5]
第一阶段,业务方自建小集群阶段。2012年滴滴打车刚成立时,流量较少,无须架构,仅仅2台服务器就可以解决全部问题。
第二阶段,集中式大集群、平台化阶段。随着业务量的激增,网络、存储的瓶颈促使滴滴进入云数据管理阶段。2014年初,滴滴的“补贴大战”第一次发现了自身在性能上的瓶颈,滴滴的订单量在一周内增加了50倍,但网络、存储和其他故障不断,Webserver和MySQL也频频出现问题,团队面临巨大的挑战。而且,依靠传统采购机器来实现拓展,根本无法满足业务需要。滴滴最终决定整体迁移至腾讯云。这是面对高并发和海量数据的挑战时,滴滴架构的第一次重大调整。[6]
第三阶段,SQL化阶段。2018年滴滴启动了StreamSQL建设项目,通过SQL化可以大幅度降低业务方开发流计算的难度,业务方不再需要学习Java或Scala,也不需要理解引擎执行细节及各类参数调优。滴滴相应开发了StreamSQLIDE,实现Web上开发StreamSQL,同时提供了语法检测、DEBUG、诊断等能力。
滴滴通过应用StreamSQL使流式计算开发成本大幅降低。预期未来将承担80%的流式计算业务量。未来将进一步拓展StreamSQL,并在批流统一、IoT、实时机器学习等领域探索和建设。[5]
2.滴滴DB架构介绍
滴滴主要使用的数据库是MySQL。DB服务器大致有3000~4000台。图9.7是滴滴DB的架构图,最上面是TGWLVS。滴滴通过TGW LVS进行外网收敛,实现了“万台服务器一人挑”。
图9.7 滴滴DB架构示意图
(1)接入层TGW
腾讯的网关系统(Tencent GateWay,简称TGW)是一套实现多网统一接入、外网网络请求转发、支持自动负载均衡的系统。TGW为开发人员免费提供服务,可直接接入基于HTTP协议的应用,只需进行少量改造即可快速接入基于其他私有协议的应用。TGW自动执行域名解析,一旦应用连接到TGW,即可使用域名来对外提供服务,以及接入电信、联通、移动三网。此外,TGW支持后端带权重的负载均衡,并且应用无须关注负载平衡。
TGW具有低成本、高价值、优服务的优势:
极大地降低了成本。TGW大量节省Real Server上的外网IP,收敛比为30∶1,原本要30个外网IP服务器才能支撑的应用,接入TGW后只需1个外网IP服务器,因此节省了申请带外网IP机器的成本。
统一接入,多网合一。TGW适用所有外网访问请求,业务接入TGW后即默认具备电信、联通、移动三网接入能力。业务接入TGW简单迅速,基于HTTP协议的应用不用改造,其他私有协议的应用只需进行少量代码改造。除此之外,还能解决电信、联通用户访问延时长的问题。
更优的接入层负载均衡。TGW是一个替代现有LVS和QHTTPD的接入层负载均衡方案,具有动态负载均衡、系统监控、容灾切换、告警通知、平滑扩容、安全备份等特性。
更安全。接入服务器去掉外网之后,不会直接受到攻击,提高了服务器的安全性。
由于TGW自身服务器具备专业的网络防御能力,并减少了业务服务器暴露在外网的IP数量,因此能有效防范业务服务器遭受外网攻击。(www.daowen.com)
(2)代理层dbproxy
dbproxy为客户端和数据库端之间的中间代理程序,它负责检测分析、过滤请求以及服务器负载和读写分离等,避免MYSQL单点失效和压力骤增而引起的宕机。
dbproxy相当于一个入口,连接应用,它是分布式的,因此每台上都会有自己的原始配置,所有访问DB的流量都要经过dbproxy,dbproxy会记录正常的访问日志,还有一些错误日志,例如没有加白名单或者是SQL语法错误等都会在dbproxy被拦截,产生错误日志。
(3)MySQL层
代理层下面是MySQL的主从关系,一般情况是一主、一备主和一个从库,如果读取操作多,QPS会比较高,从库也会相应地增多。同时还要有MySQL的监控来应对主库的异常情况。
3.滴滴平台数据自动化运维
大数据的快速发展加速了技术变革,使得数据归集更加自动化、准确化和及时化。同时又对公共信用信息数据归集提出了新的发展要求。为适应大数据的背景,必须建立科学的信用信息归集机制,实现静态的信用主体基础信息与动态的各类监管执法信息相互关联、有机统一,以达到整合各类信息资源,消除“信息孤岛”,确保归集的数据完整、准确、及时。[7]
(二)滴滴平台大数据应用
1.滴滴“交通大脑”项目
滴滴作为服务公众出行的企业拥有鲜活的出行数据,是基于移动数据分析交通问题的重要数据来源。因此,多个城市的交通部门与滴滴合作建设城市级“交通大脑”项目,进入城市交通管理“智慧+”助力解决城市拥堵问题。
滴滴“交通大脑”是以云计算为基础,将出行大数据、人工智能和交通工程紧密结合的科技成果。滴滴“交通大脑”将融合滴滴出行、政府和其他行业等各方能力,运用人工智能等分析处理方法,为城市提供交通管理整体解决方案。
2018年12月26日,济南举办了城市交通管理“智慧+”发展论坛暨济南“交通大脑”正式启用仪式。济南“交通大脑”是滴滴第一个城市级“交通大脑”项目,这标志着由滴滴牵头建设的“城市大脑”已经从研究实验进入到了实战应用阶段。
滴滴出行大数据为解决城市拥堵问题提供了数据支持和参考。根据滴滴出行的数据,计算出2018年第一季度全国主要城市的交通运行指数和车辆平均速度,如表9.1所示。结果表明,西安全天交通运行指数为1.620,拥堵状况居全国首位;哈尔滨、长春、重庆、呼和浩特、沈阳、南京、成都、合肥、北京等城市也位列前十位。
以2017年第四季度数据为基准,滴滴计算2018年第一季度的排名、交通运行指数与平均速度的相对变化得出结论:北京、上海、广州、深圳四个一线城市的排名下降,西安、长春、重庆、沈阳、南京、合肥、武汉、长沙等二线城市排名上升,这跟交通运行指数成正比例关系。
表9.1 2018年第一季度城市交通运行指数和车辆平均速度
2.滴滴“互联网+信号灯”项目
城市交通红绿灯还没有“智能化”,无法根据道路的实时情况及时调控。滴滴智慧交通针对这个问题特别立项——“互联网+信号灯”项目,并且已经在济南等城市落地。除了利用传统的智能信号灯的数据采集设备,滴滴的“互联网+信号灯”还融合了海量的互联网轨迹数据和先进算法,能更精准地评估区域实时车流量,实现信号灯的智能控制,提升信号灯的运行效率。有一组监测数据显示,仅仅用数据优化了6个红绿灯,就可以令交通效率提高约10%,不要小看这10%的提升,在全球各大城市的拥堵难题下,10%的提升可谓是巨大的进步。滴滴已经与成都、深圳、南京、沈阳、武汉、贵阳等多个城市达成战略合作,滴滴通过与地方政府的合作,将这些大数据“金矿”分享给交通管理部门,从而更好地为大众出行提供便利。[8]
3.滴滴大数据匹配司乘需求信息
滴滴大数据的应用最为实际的是匹配司乘信息。滴滴司机可以利用滴滴大数据热力图查看乘客位置。热力图是滴滴基于大数据专门为平台上的司机研发的,通过热力图可以明确看到城市的哪些区域用车需求高,他们去到这个区域,既能解决城市区域用车需求,也能提高自己的收入。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。