信息与电脑2019年第1期China Computer & Communication软件开发与应用基于开源框架的电力大数据云端实时数据采集平台的 设计与关键技术李夏光(神华和利时信息技术有限公司,北京 100001)摘 要:笔者在分析大数据相关开源框架和技术的基础上,提出基于开源框架实现边缘侧数据汇聚接入大数据云端、云端数据采集、分布式流处理、实时数据计算以及数据存储的框架设计与关键技术应用。该功能设计在某大型能源企业电力大数据系统中已成功实践应用,有效解决了实时数据采集应用中数据量大、响应速度快、数据传输可靠性要求高等问题。关键词:大数据;实时数据采集;开源;电力;功能设计中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2019)01-155-02Design and Key Technology of Power Big Data Cloud Real-Time Data Acquisition Platform Based on Open Source FrameworkLi XiaguangAbstract: Based on the analysis of open source frameworks and technologies related to large data, this paper proposes the (Shenhua Helishi Information Technology Co., Ltd., Beijing 100001, China)framework design and key technology application of edge-side data aggregation and access to large data cloud, cloud data acquisition, distributed stream processing, real-time data calculation and data storage based on open source frameworks. The function design has of data, fast response speed and high reliability of data transmission in the application of real-time data acquisition.been successfully applied in a large power data system of a large energy enterprise. It effectively solves the problems of large amount Key words: big data; real-time data acquisition; open source; power; functional design0 引言础的技术支撑[1]。实时数据采集平台是大数据平台中的核心为了解决运营工作中出现的问题,面向全集团的发电功能之一,实现实时数据从边缘侧到大数据云端的采集、处设备运用大数据技术集中全量的生产运行参数和设备状态信理和存储。息,在纵向上以垂直的企业—机组—系统—设备为主线,在边缘侧部署汇聚机汇聚从各类传感器或分站等终端采集横向上以同类对象—对象型号—单一对象为主线,整合各种的实时数据,经过压缩、加密等处理传输到大数据云端的实生产装置的监测信息。以全量生产信息为基础,通过大数据时数据采集平台。实时数据采集平台包含采集接口、分布式采集、存储、分析,将分析结果反馈给各级单位,以用于辅流处理和实时计算等功能模块。在接收边缘侧传输的实时数助生产。据时,通过负载均衡机制增加吞吐量,加强网络数据处理能1 总体架构力。首先,根据边缘侧汇聚机的数据量情况,配置相应的采集接口,采集接口负责接收边缘侧发送的数据包,并进行解集团电力大数据平台遵循“自主可控、安全、开放”原压缩、解密等处理;其次,将数据提交给分布式流处理模块,则建设,提供海量数据信息采集、处理、存储和分析计算功能,由分布式流处理将数据提交到实时计算模块进行数据处理;以实时数据处理和数据分析计算为核心,提供统一数据服务、最后,将处理的数据提交到数据存储平台进行存储。云端实数据仓库、算法库、模型中心和数据实验室等大数据技术服时数据采集平台的主要特点如下:第一,秒级响应速度;第务,结合数据挖掘和机器学习技术,为各类业务应用提供基二,跨平台语言支持;第三,支持海量数据实时传输;第四,作者简介:李夏光(1977—),男,辽宁锦州人,本科,助理工程师。研究方向:信息技术。— 155 —软件开发与应用信息与电脑China Computer & Communication2019年第1期通过心跳机制、断点重连机制和负载均衡策略,三方面保证障数据传输过程中的保密性。第四,在数据入库前,采用旋数据传输没有单点故障,单点故障后数据不丢失;第五,通转门算法压缩实时数据,减少数据占用的存储容量。过数据过滤、数据加密、数据压缩等手段降低带宽要求,保2.2.2 数据断点续传机制证数据安全。边缘侧和大数据云端的数据通信采用TCP协议,断点重2 关键技术连机制依靠心跳和接收端的负载均衡策略保证整个采集架构的高可用性。传输中断时,边缘侧会缓存未发送成功的数据,2.1 技术路线及选型待网络连接成功后继续发送当前数据,并在连接成功后启动实时数据采集平台的总体技术路线基于Hadoop分布式新的数据发送线程;同时,向特定的历史数据处理服务器端系统基础架构,遵循大数据标准,解决海量数据的存储与处口发送数据,保证历史数据不丢失和当前数据的稳定发送。理,提供并行计算和非结构化数据的处理能力。在软件层面大数据云端的实时数据采集接口通过心跳机制和负载均衡,保证数据和计算的高可靠性,实现低成本存储和低延时、高保证大数据传输情况下数据的稳定接收。并发的数据处理能力。平台各部分功能模块所使用的技术组2.2.3 流式数据处理件在选择时遵循以下原则:第一,业界流行、通用的开源软件;流式数据处理主要针对流式数据的实时计算处理过程,第二,功能上可以满足传输、采集、处理和存储的需求;第具有数据实时持续不断到达、到达次序、数据来源众多三,所有组件应可以分布式安装并支持高可用性架构;第四,且格式复杂、数据规模大且十分关注存储以及注重数据整体简单易用,和其他组件可集成。价值而不关注个别数据等特点。流式数据处理对高性能、海针对电力业务,大数据云端实时数据采集平台主要基量式、实时性、分布式以及可靠性具有较高需求,并且需要于高效、稳定、高可用性和可扩展性原则,一方面保证采集存储层和处理层的共同支持[2]。存储层需要支持记录定序和服务7×24小时可用;另一方面保证数据传输满足最低的网高度一致性,以便采用快速、便宜、可重复的方式读取和写络延迟需求和最小的网络带宽需求,实现数据采集过程中数入大型数据流。处理层负责处理存储层中的数据,基于该数据堆积量可控,单台服务宕机不影响数据正常传输,整个传据运行计算,通知存储层删除不再需要的数据,还必须为存输过程无单点故障。依据上述原则和性能要求,实时数据采储层和处理层制定可扩展性、数据持久性和容错规划。集平台的主要功能模块技术选型如下。第一,负载均衡采用2.2.4 实时计算HAProxy。HAProxy是一个使用C语言编写的自由、开放源为了实现后续的数据加工、数据分析和数据挖掘,需要代码软件,其提供高可用性、负载均衡和基于TCP、HTTP对原始的实时数据进行初步加工处理。采用实时计算技术,利的应用程序代理。HAProxy特别适用于负载特大的Web站点。用数据质量校验模型,实时监测数据质量;通过数据特征预处第二,采集接口采用成熟、稳定的Netty服务作为数据接收理,为数据打上时间、空间、物理维度等特征标记。如此一来,和处理框架,搭建采集机群并行接收数据,后期更多的电厂数据存储不止包含原始数据,还包含有特定特征标记的特征和测点接入后,可动态扩展采集机的数量,提高采集集群的值,符合数据质量的要求,便于后续分析和应用数据。承载能力。Netty是由JBOSS提供的一个Java开源框架,是3 结 语提供异步、事件驱动的网络应用程序框架和工具,用以快速实时数据采集平台在集团大数据系统中的成功上线和在开发高性能、高可靠性的网络服务器和客户端程序。多家电厂的实际应用,说明基于开源框架设计、搭建的大数2.2 关键技术据云端实时数据采集平台达到了初步设计标准,相关功能及2.2.1 实时数据处理服务满足运行稳定、扩展性强的需求,实现了电厂基于测点采集接口收到边缘侧发送的数据包后,首先解密数据和传感器等设备的全量实时数据采集、传输、处理和存储。包;其次,采用deflate解压算法对数据进行解压操作,通过平台完全可以支撑接入更多的边缘侧节点,一方面可以减少PROTOBUF实现数据的反序列化,并将数据写入到缓存中;边缘侧及云端的接入项目周期与成本;另一方面为集团基于最后,数据通过旋转门压缩算法写入HBase。全量实时数据的分析应用提供基础,为电厂/机组/系统/设第一,采用PROTOBUF对数据进行序列化和反序列化,备各级的性能分析、优化、故障诊断等提供支撑。提高了多种编程语言、数据转换的性能和效率,并且支持代码生成机制,数据解析类可根据配置文件自动生成,降低网参考文献络传输的数据量。第二,采用deflate算法压缩数据,可以对[1]陈建峡,张月,曾金怀,等.基于Storm的实时用户日志数据进行无损压缩,减小单次传输的数据包大小。第三,采管理系统[J].湖北工业大学学报,2016,31(5):57-62.用3DES算法加密数据包。该算法属于对称加密算法,特点[2]朱征,于帅鹏,赵志刚,等.基于流计算的实时监控预警是算法公开、计算量小、加密速度快和加密效率高,可以保架构研究及应用[J].华东电力,2014,42(11):2316-2322.— 156 —