基本Parquet实现

Hive处理Parquet数据的漂移同步解决方案的基本实现向Avro实现添加了MapReduce执行器。

您可以使用选择的源端,将Hive Metadata处理器连接到Hive Metastore目标端以执行元数据更新,并使用Hadoop FS或MapR FS目标端来处理数据。您将数据处理目标端配置为生成事件,然后使用MapReduce执行程序将关闭的Avro文件转换为Parquet。

基本的Parquet实现如下所示:

与Avro数据一样,Hive Metadata处理器通过第一个输出流(数据流)输出记录。将数据流连接到Hadoop FS或MapR FS目标端,以使用记录头属性将数据写入目标系统。每次目标关闭输出文件时,它都会创建一个文件关闭事件,该事件触发MapReduce执行程序启动从Avro到Parquet MapReduce作业。

Hive Metadata处理器通过第二个输出流(元数据输出流)输出元数据记录。将Hive Metastore目标端连接到元数据输出流,以使目标端能够在Hive中创建和更新表。元数据输出流不包含记录数据。

如果您的数据包含嵌套字段,则可以添加Field Flattener来展平记录,如下所示: