《表3 流水线测试样例:模型驱动的大数据流水线框架PiFlow》

《表3 流水线测试样例:模型驱动的大数据流水线框架PiFlow》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《模型驱动的大数据流水线框架PiFlow》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为验证PiFlow的性能,针对该场景与Apache NiFi进行了对比测试,共设计了4条流水线,测试流水线如表3所示。F1功能为DBLP数据采集入库,F2~F4为读取Oracle数据写入Hive。测试使用5台物理机搭建的集群环境,每台物理机为32核CPU,内存为128 GB。性能对比测试结果见表4,针对每条流水线的运行时间分别进行了三次测试,结果取平均值(见平均耗时)。其中PiFlow性能提升比例公式为:PiFlow性能提升比例=NiFi平均耗时/PiFlow平均耗时-1。Apache NiFi所需资源如表5,PiFlow所需资源如表6。Apache NiFi采集Oracle数据库的策略为将数据进行分页,每页10 000条数据,以页为单位进行并发读写。PiFlow采用分区方式进行读写,所采用的线程数与Apache NiFi相同。由于Apache NiFi基于FlowFile文件形式计算,而PiFlow基于内存计算,针对设计的4条流水线PiFlow相较Apache NiFi平均性能提升了5倍,且数据量越大优势越明显。