1 APACHE GRIFFIN简述

Apache Griffin是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度和可信度。例如:离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等

1.1 APACHE GRIFFIN架构组成介绍

1.1.1 Apache Griffin的整体架构

Griffin主要有三个组件Define、Measure和Analyze,具体如下图:

1.2 APACHE GRIFFIN的特点

Apache Griffin的主要特点

1.3 APACHE GRIFFIN的工作流程

1.注册数据,把想要检测数据质量的数据源注册到griffin。 2.配置度量模型,可以从数据质量维度来定义模型,如:精确度、完整性、及时性、唯一性等。 3.配置定时任务提交spark集群,定时检查数据。 4.在门户界面上查看指标,分析数据质量校验结果。

1.4 APACHE GRIFFIN各个实例通信网络端口

Untitled

1.5 APACHE GRIFFIN版本依赖

1.JDK (1.8 or later versions) 2.PostgreSQL(version 10.4) or MySQL(version 5.6及以上) 3.Hadoop (2.6.0 or later) 4.Hive (version 2.x),安装参考 :CentOS7 Hive 安装 5.Spark (version 2.2.1) 安装参考:centos安装spark 6.Livy 安装参考:livy安装与部属 7.ElasticSearch (5.0 or later versions). 参考:centos7下安装es5.*

1.6 关于GRIFFIN的各个依赖组件感受

griffin可能是我目前用过的大数据中间件中,依赖组件最多的。 Hadoop自不必说,作为了griffin的基本底层;mysql/POSTgreSQL是用来保存元数据;hive的作用是griffin比较source与target数据的时候,将两份数据作为两个表保存在hive中;而ElasticSearch是用来保存数据质量分析的结果的;Spark是griffin实际工作的地方,griffin都是提交的spark的任务;由于要提交spark任务,所以livy的作用就是提交任务和任务管理。 后面实践案例中可以看到,每个measure-job,然后按照规则触发的app,都会形成一个任务提交,在livy中体现的就是一个session: Griffin中的Measure-Job和触发的app