混合大数据分析引擎xDB

系统目标:xDB通过提供海量数据的实时查询和统计分析融合功能,实现了一种大数据分析时代的流式处理和批处理的混合数据查询引擎,为用户提供了便捷的通用化数据自动配置、自动数据载入、部署、分析和查询等一系列功能,提高了大数据查询处理的通用性和自动化水平。

系统描述:xDB旨在实现一种查询处理引擎以适应大数据的实时流式处理和批处理。xDB采用了主流的技术,其中批处理模块基于MapReduce和并行关系数据库技术,集合了关系型数据库的数据处理能力与Hadoop、MapReduce等优点于一身,取得MapReduce等大规模并行数据处理的容错性和可扩展性,同时结合了分布式关系数据库的执行速度,获得了快速批量数据处理的能力;实时数据处理部分主要基于Storm分布式容错实时计算系统,具备编程模型简单、可以支持多种编程语言、良好的容错性和水平扩展能力、可靠地消息处理机制以及快速的处理能力等优点,同时实现了数据的自动接入、通用数据查询和自动保存,避免了针对不同任务增加Bolt、不保存原始数据等的原有系统缺点。

xDB主要特色还在于对现有先进技术进行了技术改进和创新,增加了自行设计和研发的通用化、自动化和持久化子模块,实现了多源数据解析、数据自动载入和更新、查询优化等功能,增加了数据处理的通用性,减少数据前期预处理和手工操作的时间损耗,提高了整个模块的自动化程度,同时实时流式处理模块为批处理模块提供了结构化数据存储,使得实时流式处理和批处理可以更好地融合,实现相互协调统一的查询处理引擎。

系统特点:

• 提供通用化配置接口

• 数据载入自动部署

• 适用多数据源解析处理

• 高效灵活的查询处理分析接口

• 兼具流式处理和批处理分析功能

• 良好的可扩展性和容错性