为响应业务对数据服务提出的实时要求,本方案着力构建航空大数据分析平台,基于开源的流处理技术,实现对高频数据的实时处理,将数据延迟降低至秒级。旨在通过构建实时数据交换与处理平台,提升现有数据平台对内对外的数据交互共享能力。与此同时,通过接入航班运行领域实时数据与网站客户行为数据,丰富数据仓库数据源,以便发掘更多业务价值,体架构如下图总体系统架构图如下:

整个大数据平台采用分布式文件系统(HDFS)作为底层存储系统,支持PB级的海量数据存储,具有高容错性,并支持横向扩展,集群内部无单点问题,保证平台高效稳定运行。 大数据平台提供统一的资源调度平台,集中管理集群中各节点的资源,为平台上各种计算框架统一提供CPU,内存及存储等资源。
广泛采集业务系统数据,包括用户官网浏览数据、用户购票数据、会员数据等,通过跨系统、多类型数据的整合,以及高效、精准的数据挖掘和分析,实现对用户行为的深度认知。
解决方案的业务能力分析
?1.精准营销与服务
2.优化流程
3.安全风险
4.智能管理
5.数据监管
6.指挥决策
解决方案的技术功能分析
分布式存储
面对海量数据,传统存储技术一方面是存储和计算物理分离、易受I/O瓶颈制约,另一方面是数据数据冗余、扩展、容错和并发读写能力不足。博易航空大数据平台采取分布式存储架构,以提高并发访问能力,在大文件存储上的表现优异。
实时数据交换
借助流处理等技术构建实时数据交换模块,实现实时数据接入和发布的可配置和标准化。实时数据交换模块可以提升数据处理时效,使数据延迟降低至秒级。
轻松处理半结构化数据
将订单数据、会员数据等结构化数据,以及用户网站浏览数据等非结构化数据,整合到一个平台中进行分析,大大降低了分析师基于非结构化数据进行数据挖掘和分析的难度。
灵活的多维随机分析能力
任何不了解数据库技术、不了解统计分析技术的人员都能够很方便、直观、快速地进行各类分析,需要数据仓库系统具有极大的灵活性和可操作性,以便能够通过不同方式访问数据仓库中的数据并进行统计、分析和生成各类报表。
新数据的追加能力
数据仓库系统和生产应用系统是并行存在的。现有的生产应用系统作为数据的采集方,随时将各种新生成的生产数据实时地收集起来,数据仓库系统作为统计分析系统,其中的数据也需要根据原始数据的变化而进行经常性的更新,以保证用户所作的分析是最真实的,这就要求数据仓库系统能够按照一定的规律自动地从生产应用系统中自动地获取新鲜的数据。
具备高度可扩展性
博易解决方案具备高度可扩展性,可通过增加节点或增加服务器等线性扩张方式应对持续增长的数据量,将响应延迟严格控制在微秒或毫秒级别。