新闻中心
睿至大数据助力北京公交 塑造公共交通系统运营新常态
作者:睿至大数据
近年来,各城市的公共交通运营管理机构正在努力的以城市全局公交交通统筹规划、优化线网建设、提升管控力、提升服务满意度为发展的核心目标,致力于更好地发展与管理城市公交,实现其社会效益最优化,并最大限度地提高公交企业管理水平、提高公共交通运行效率。追溯到北京公交集团的信息化建设,起于1999年,已经历了近20年的时间,集团信息化经历了从无到有,从分散到集成,从自发建设到统一组织建设的发展过程。北京公交集

近年来,各城市的公共交通运营管理机构正在努力的以城市全局公交交通统筹规划、优化线网建设、提升管控力、提升服务满意度为发展的核心目标,致力于更好地发展与管理城市公交,实现其社会效益最优化,并最大限度地提高公交企业管理水平、提高公共交通运行效率。

追溯到北京公交集团的信息化建设,起于1999年,已经历了近20年的时间,集团信息化经历了从无到有,从分散到集成,从自发建设到统一组织建设的发展过程。

北京公交集团于2015年10月,启动了大数据示范应用工程,接入公交调度系统、IC卡系统、计划系统、乘客信息服务系统及接入转发系统在内的5大业务系统的数据,借助大数据平台提供的实时和离线计算组件,对平台所存储的海量数据进行计算分析,实现了集团所关注的运营生产、线路达标、实时客流、运营调度、定位设备等5大业务部分(30余类)指标计算和可视化展示需求,与此同时,面临的挑战与日俱增。

1.多种出行方式竞争

随着出行方式多样化的快速发展,出租车、私家车、可定制路线的商务巴士以及共享单车等互联网出行方式迅速普及,传统公交行业面临巨大挑战,部分线路逐年出现客流量下降的趋势。

2.社会需要

国家将公共交通地位提到城市发展战略高度,号召建设公交都市,同时日益拥堵的交通环境也需要城市大力发展交通,为城市治堵贡献力量,因此作为公交行业的标杆城市,北京公交需要大力发展公共交通

3.运营模式转型挑战

公交系统中庞大的数据一直沉睡,如何运用数据,挖掘数据潜在的业务价值并运用到生产中成为企业的关注点。因此本次建设的一个重大目标就是使用大数据技术,融合行业的多源数据,深度挖掘,发现客流规律,并指导生产。

4.系统建设挑战

公交大数据应用平台系统建设涉及业务系统多,难度大,体现在涉及技术较新、产品选型困难、实施难度大且类似经验不足等,因此公交大数据应用建设是一个反复迭代、循序渐进的过程。 

如何应对这些问题?如何利用自身创新的大数据解决方案与客户一起解决这些难点?睿至大数据从探寻城市环境下公共交通运行全局活动出发,从目前公共交通行业最为关心的问题入手,与北京公交共同设计了最优的解决方案:

北京公交集团大数据应用平台总体架构包括数据源、数据接入、数据存储计算、数据服务及应用服务。

数据源层:

数据源层主要分为结构化数据和非结构化数据,结构化数据包括业务系统数据、实时生产数据和外部数据;非结构化数据包括文档数据、空间地理数据、视频数据和三维模型数据。

数据接入层:

通过数据集成平台,将实时数据、非实时数据和非结构化数据进行获取、写入和统一管理,实现数据的自动收集、整理、清洗、转换和存储。

数据存储计算层:

由大数据平台提供功能支持,包括实时数据存储组件(HBase)、分布式数据仓库组件(Hive)、数据处理计算组件(批处理、内存计算、流式计算和查询计算)、分布式资源调度组件(YARN)、分布式文件系统(HDFS)、分布式数据库和平台管理等7大部分组成。

数据服务层

数据服务层为大数据平台提供统一对外的数据访问服·务,访问形式包括SDK、ODBC/JDBC、CLI、HQL、CQL、WebServices等。

前端应用层

对应关键指标、主题分析进行展现,用以将所有运营生产管理、运营调度管理、客流分析、线路分析等相关数据建立关联分析,用于企业决策和高层汇报的信息,并将信息分析层发现的问题、预测结果、告警信息进行展现。前端访问层需支持PC终端、大屏终端、移动终端的显示。

在本方案中,数据的采集、集成、计算、存储作为难点和重点,睿至大数据通过如下技术逐一解决:

1.数据采集

公交大数据平台的数据来源除了传统的数据中心、数据仓库之外,更多的数据是来自于之前无法有效处理的各类文件, 包括文档、空间地理信息技术、视频监控、三维模型等方面文件数据,因此实现非机构化数据采集尤为重要。

2.数据集成

使用hadoop生态的分布式海量存储技术替代当前的关系型数据库,为了保障数据能在关系型数据库和分布式存储之间无缝传输,又保障大规模数据的传输与流转效率,不能影响业务系统正常运行,可利用关系数据库与分布式存储同步技术(Sqoop),实现不同存储机制下的数据双向同步

3.数据计算

如何接入实时数据,实现在线计算

4.数据存储

梳理业务需求,将数据指标化,建立业务指标数据仓库;使用Hadoop分布式存储平台,足够支撑安全的PB级以上规模数据在线存储,存储结构化数据、非结构化数据、半结构化数据等。

通过本方案的成功实施,就北京公交集团的2万余辆公交车辆来说,就可以通过包括车辆进站中、出站中、运行中、停靠站、故障信号五种类别采集的公交车辆的GPS数据(以近乎实时的方式采集并回传),了解到车辆的实时位置信息。

我们通过基于大数据和AI技术,融合多源数据,围绕人、车、线、站进行数据分析,挖掘数据内在价值,实现客流精准把握,运力高效匹配,线网合理布局;通过分析乘客出行数据,深入了解居民交通需求,掌握居民出行特征与规律,从而提供针对性的交通供给,为居民提供便捷、可靠、安全、舒适的公交出行体验。 

除此之外,平台通过删减低效班次和线路,节能减排,提高公交出行吸引力,为城市治堵做贡献;实时掌握线路的运营数据,为企业精细化管理提供数据支撑;分析运力和客运量的匹配度,分析线路的客流分担情况,合理删减低效班次和线路,降低企业运营成本。

在该方案中结合大数据技术、AI算法和行业模型,同时积累了多个行业数据分析模型算法,包括基于机器学习的客流OD生成算法、基于机器学习的特征提取和影响因子权重模型、基于机器学习的特征提取和影响因子权重模型、基于多种算法模型结合的短时客流预测、公交数据融合处理和深度加工、基于实时公交GPS和历史规律的公交精准到站预测服务,这些模型算法在行业内处于领先地位。 

睿至大数据从目前公共交通行业最为关心的问题入手,为公共交通运营管理机构的信息获取、全景展现、实时优化和实际决策提供了有力的、创新的支撑。