1 APACHE GRIFFIN简述

Apache Griffin是一个开源的大数据数据质量解决方案，它支持批处理和流模式两种数据质量检测方式，可以从不同维度度量数据资产，从而提升数据的准确度和可信度。例如：离线任务执行完毕后检查源端和目标端的数据数量是否一致，源表的数据空值等

1.1 APACHE GRIFFIN架构组成介绍

1.1.1 Apache Griffin的整体架构

Griffin主要有三个组件Define、Measure和Analyze，具体如下图：

Define：主要负责定义数据质量统计的维度，比如数据质量统计的时间跨度、统计的目标（源端和目标端的数据数量是否一致，数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等） • Measure：主要负责执行统计任务，生成统计结果 • Analyze：主要负责保存与展示统计结果

1.2 APACHE GRIFFIN的特点

Apache Griffin的主要特点

度量：精确度、完整性、及时性、唯一性、有效性、一致性。 • 异常监测：利用预先设定的规则，检测出不符合预期的数据，提供不符合规则数据的下载。 • 异常告警：通过邮件或门户报告数据质量问题。 • 可视化监测：利用控制面板来展现数据质量的状态。 • 实时性：可以实时进行数据质量检测，能够及时发现问题。 • 可扩展性：可用于多个数据系统仓库的数据校验。 • 可伸缩性：工作在大数据量的环境中，目前运行的数据量约1.2PB(eBay环境)。 • 自助服务：Griffin提供了一个简洁易用的用户界面，可以管理数据资产和数据质量规则；同时用户可以通过控制面板查看数据质量结果和自定义显示内容

1.3 APACHE GRIFFIN的工作流程

1.注册数据，把想要检测数据质量的数据源注册到griffin。 2.配置度量模型，可以从数据质量维度来定义模型，如：精确度、完整性、及时性、唯一性等。 3.配置定时任务提交spark集群，定时检查数据。 4.在门户界面上查看指标，分析数据质量校验结果。

1.4 APACHE GRIFFIN各个实例通信网络端口

Untitled

1.5 APACHE GRIFFIN版本依赖

1.JDK (1.8 or later versions) 2.PostgreSQL(version 10.4) or MySQL(version 5.6及以上) 3.Hadoop (2.6.0 or later) 4.Hive (version 2.x),安装参考：CentOS7 Hive 安装 5.Spark (version 2.2.1) 安装参考：centos安装spark 6.Livy 安装参考：livy安装与部属 7.ElasticSearch (5.0 or later versions). 参考：centos7下安装es5.*

1.6 关于GRIFFIN的各个依赖组件感受

griffin可能是我目前用过的大数据中间件中，依赖组件最多的。 Hadoop自不必说，作为了griffin的基本底层；mysql/POSTgreSQL是用来保存元数据；hive的作用是griffin比较source与target数据的时候，将两份数据作为两个表保存在hive中；而ElasticSearch是用来保存数据质量分析的结果的;Spark是griffin实际工作的地方，griffin都是提交的spark的任务；由于要提交spark任务，所以livy的作用就是提交任务和任务管理。后面实践案例中可以看到，每个measure-job，然后按照规则触发的app，都会形成一个任务提交，在livy中体现的就是一个session： Griffin中的Measure-Job和触发的app