Hive Streaming

支持的管道类型:

  •  Data Collector

Hive Streaming目标端将数据写入以ORC(Optimized Row Columnar)文件格式存储的Hive表中。

Hive Streaming目标端需要Hive版本0.13或更高版本。在使用目标端之前,请验证您的Hadoop实现是否支持Hive Streaming。

配置Hive Streaming时,您可以指定Hive metastore和以ORC文件格式存储的分桶表。您定义Hive和Hadoop配置文件的位置,并可以选择指定其他必需属性。默认情况下,目标端会根据需要创建新分区。

Hive Streaming根据匹配的字段名称将数据写入表。您可以定义覆盖默认字段映射的自定义字段映射。

在管道中将Hive Streaming目标端与MapR库一起使用之前,必须执行其他步骤以使Data Collector能够处理MapR数据。有关更多信息,请参见MapR先决条件。

配置单元属性和配置文件

您可以配置Hive Streaming以使用Hive和Hadoop配置文件以及其他属性:

配置文件
Hive Streaming目标端需要以下配置文件:

  • core-site.xml
  • hdfs-site.xml
  • hive-site.xml
要使用配置文件:

  1. 将文件或指向文件的符号链接存储在Data Collector资源目录中或Data Collector本地路径中的其他位置。
  2. 如果文件存储在资源目录中,请在阶段中指定文件的相对路径。如果文件存储在资源目录之外,请指定文件的绝对路径。
    注意:对于Cloudera Manager安装,Data Collector会自动创建一个名为的文件的符号链接 hive-conf。在阶段中输入 hive-conf文件的位置。
个别属性
您可以在目标端中配置单个Hive属性。要添加Hive属性,请指定确切的属性名称和值。目标端不验证属性名称或值。

注意:各个属性会覆盖配置文件中定义的属性。

配置Hive Streaming目标端

使用Hive Streaming目标端将数据写入Hive:
  1. 在“Properties”面板的“General选项卡上,配置以下属性:
    一般属性 描述
    Name 阶段名。
    Description 可选说明。
    Stage Library 您要使用的库版本。
    Required Fields 必须包含用于将记录传递到阶段的记录的数据的字段。

    提示:您可能包括阶段使用的字段。

    根据为管道配置的错误处理,处理不包括所有必填字段的记录。

    Preconditions 必须评估为TRUE的条件才能使记录进入处理阶段。单击添加以创建其他前提条件。

    根据为该阶段配置的错误处理,处理不满足所有前提条件的记录。

    On Record Error 该阶段的错误记录处理:

    • Discard-放弃记录。
    • To Error-将记录发送到管道以进行错误处理。
    • Stop Pipeline-停止管道。
  2. 在“Hive选项卡上,配置以下属性:
    Hive属性 描述
    Hive Metastore Thrift URL Hive Metastore的Thrift URI。使用以下格式:

    thrift://<host>:<port>

    端口号通常为9083。

    Schema Hive模式。
    Table 存储为ORC文件的分桶的Hive表。
    Hive Configuration Directory

    包含Hive和Hadoop配置文件的目录的绝对路径。对于Cloudera Manager安装,请输入hive-conf

    目标使用以下配置文件:

    • core-site.xml
    • hdfs-site.xml
    • hive-site.xml
    注意:配置文件中的属性被此目标端中定义的单个属性覆盖。
    Field to Column Mapping

    用于覆盖默认字段到列的映射。

    默认情况下,字段被写入具有相同名称的列。

    Create Partitions 在需要时自动创建分区。仅用于分区表。
  3. 在“Advanced选项卡上,可以选择配置以下属性:
    高级属性 描述
    Transaction Batch Size 表中每个分区的批次中要请求的事务数。有关更多信息,请参见Hive文档。

    默认值为1000个事务。

    Buffer Limit (KB) 要写入目标端的记录的最大大小。增加大小以容纳更大的记录。

    根据为该阶段配置的错误处理来处理超出限制的记录。

    Hive Configuration

    要使用的其他Hive属性。使用简单或批量编辑模式,单击添加图标,然后定义属性名称和值。

    使用Hive期望的属性名称和值。