基本Avro实现

您可以在适当的任何管道中将Hive Metadata处理器,Hive Metastore目标端用于元数据处理,并将Hadoop FS或MapR FS目标端用于数据处理。

Hive处理Avro数据的漂移同步解决方案的基本实现包括您选择的源端,Hive Metadata处理器连接到Hive Metastore目标端以执行元数据更新,以及连接到Hadoop FS或MapR FS目标端以处理数据。如下:

Hive Metadata处理器通过第一条输出流(数据流)输出记录。将数据流连接到Hadoop FS或MapR FS目标端,以使用记录头属性将数据写入目标系统。

Hive Metadata处理器通过第二条输出流(元数据输出流)输出元数据记录。将Hive Metastore目标端连接到元数据输出流,以使目标端能够在Hive中创建和更新表。元数据输出流不包含记录数据。

如果您的数据包含嵌套字段,则可以添加Field Flattener来展平记录,如下所示: