GPSS Producer

支持的管道类型:

  •  Data Collector

GPSS Producer目标端通过Greenplum Stream Server(GPSS)将数据写入Greenplum数据库。

在配置GPSS Producer目标端时,您可以为Greenplum数据库主服务器和Greenplum流服务器指定连接信息,定义要使用的表,并可以选择定义字段映射。默认情况下,目标端将字段数据写入具有匹配名称的列。

GPSS Producer目标端可以使用在sdc.operation.type记录头属性中定义的CRUD操作来写入数据。您可以为没有头属性或值的记录定义默认操作。您还可以配置如何处理不受支持的操作的记录。 有关Data Collector更改数据处理以及启用CDC的源端的列表的信息,请参见处理变更数据。

在使用GPSS Producer目标端之前,必须安装GPSS阶段库并完成其他先决任务。GPSS阶段库是一个企业版阶段库,仅供开发用途免费。有关购买用于生产的阶段库的信息,请联系StreamSets。

先决条件

使用GPSS Producer目标端之前,请完成以下先决条件:

  • 安装GPSS阶段库。
  • 在Greenplum数据库中安装、配置和启动GPSS。

安装GPSS阶段库

必须先安装GPSS阶段库,然后才能使用GPSS Producer目标端。

GPSS阶段库是一个企业版阶段库,仅供开发用途免费。有关购买用于生产的阶段库的信息,请联系StreamSets。

您可以使用Package Manager来安装企业版阶段库以进行tarball Data Collector的安装,也可以将其作为定制阶段库来进行tarball,RPM或Cloudera Manager Data Collector的安装。

支持的版本

下表列出了与特定的Data Collector版本一起使用的GPSS企业版阶段库的版本:

Data Collector版本 支持的阶段库版本
Data Collector 3.8.2 and later GPSS Enterprise Library 1.0.0

使用软件包管理器安装

您可以使用Package Manager在tarball Data Collector安装中安装GPSS阶段库。

  1. 单击包管理器图标:
  2. 在导航面板中,单击Enterprise Stage Libraries
  3. 选择GPSS企业库,然后单击安装图标:
  4. 阅读StreamSets订阅服务条款。如果您同意,请选中复选框,然后单击“Install
    Data Collector将安装所选的阶段库。
  5. 重新启动Data Collector

作为自定义阶段库安装

您可以将GPSS企业版阶段库作为自定义阶段库安装在tarball,RPM或Cloudera Manager Data Collector 安装上。

  1. 要下载阶段库,请转到StreamSets下载企业连接器页面。
    该网页显示按发布日期组织的企业版阶段库,并在页面顶部显示最新版本。
  2. 单击您想要下载的企业版阶段库名称和版本。
  3. 在“Download Enterprise Connectors表单中,输入您的姓名和联系信息。
  4. 阅读StreamSets订阅服务条款。如果您同意,请接受服务条款,然后单击“Submit
    舞台库下载。
  5. 将企业版阶段库安装和管理为自定义阶段库。
    有关更多信息,请参见Custom Stage Libraries。

在Greenplum数据库中安装,配置和启动GPSS

Greenplum Stream Server(GPSS)管理GPSS Producer目标端和Greenplum数据库之间的通信和数据传输。使用目标端之前,必须在Greenplum数据库集群中安装,配置和启动GPSS。有关更多信息,请参见Pivotol Greenplum文档

定义CRUD操作

GPSS Producer目标端可以插入,更新或合并数据。目标端根据CRUD操作标头属性或与操作相关的阶段属性中定义的CRUD操作写入记录。

您可以通过以下方式定义CRUD操作:

CRUD记录头属性
您可以在CRUD操作记录头属性中定义CRUD操作。目标端在sdc.operation.type记录头属性中寻找要使用的CRUD操作 。
该属性可以包含以下数值之一:

  • 1为INSERT
  • 3为UPDATE
  • 8为MERGE
如果您的管道包括启用CRUD的处理变更数据的源端,则目标端仅从源端生成的sdc.operation.type头属性中读取操作类型 。如果您的管道使用非CDC源,则可以使用Expression Evaluato或脚本处理器来定义记录头属性。有关Data Collector变更数据处理以及启用CDC的源端的列表的详细信息 ,请参阅处理变更数据。
操作阶段属性
您在目标端属性中定义一个默认操作。sdc.operation.type未设置记录头属性时,目标端使用默认操作 。
您还可以定义如何使用sdc.operation.type头属性中定义的不受支持的操作来处理记录 。目标端可以丢弃它们,将它们发送给错误,或使用默认操作。

配置GPSS Producer目标端

配置GPSS Producer目标端以通过Greenplum流服务器(GPSS)在Greenplum数据库中插入,更新或合并数据。

在管道中使用GPSS Producer目标之前,请完成所需的先决条件。

  1. 在“Properties”面板的“General选项卡上,配置以下属性:
    一般属性 描述
    Name 阶段名。
    Description 可选说明。
    Required Fields 必须包含用于将记录传递到阶段的记录的数据的字段。

    提示:您可能包括阶段使用的字段。

    根据为管道配置的错误处理,处理不包括所有必填字段的记录。

    Preconditions 必须评估为TRUE的条件才能使记录进入处理阶段。单击 添加以创建其他前提条件。

    根据为该阶段配置的错误处理,处理不满足所有前提条件的记录。

    On Record Error 该阶段的错误记录处理:

    • Discard-放弃记录。
    • To Error-将记录发送到管道以进行错误处理。
    • Stop Pipeline-停止管道。对集群管道无效。
  2. 在“GPSS”选项卡上,配置以下属性:
    GPSS属性 描述
    Greenplum Database Host Greenplum Stream Server连接到的Greenplum数据库主机的主机名。
    Greenplum Database Port Greenplum Stream Server用于连接Greenplum数据库主服务器的端口。
    GPSS Host Greenplum Stream Server的主机名。
    GPSS Port 目标端用于连接Greenplum Stream Server的端口。
    Schema Name 包含要写入数据的数据库和表的模式的名称。
    Database Name 包含要向其中写入数据的表的数据库的名称。
    Table Name 要写入数据的表的名称。
    Unsupported Operation Handling sdc.operation.type不支持在记录头属性中定义的CRUD操作类型时采取的措施 :

    • Discard-放弃记录。
    • Send to Error-将记录发送到管道以进行错误处理。
    • Use Default Operation-使用默认操作将记录写入目标系统。
    Default Operation 如果sdc.operation.type未设置记录头属性,则执行默认的CRUD操作。
    Field to Column Mapping 记录字段和数据库表列之间的映射。默认情况下,目标端将字段映射到具有相同名称的列。指定以下属性:

    • Column Name-数据库表中的列名。
    • SDC Field- 数据收集器记录中的字段。
    • Default Value-当记录不包含任何值时写入的值。
    • Greenplum Data Type-要写入的数据类型。如果未指定,则写入在列的模式中指定的数据类型。
    Primary Key Fields 指定主键的表列的列表。当映射的记录字段中的值与列出的列中的值匹配时,目标将使用记录中的数据更新或合并数据库行。
  3. 在“Credentials选项卡上,配置以下属性:
    凭据属性 描述
    Greenplum Username 用于访问Greenplum Stream Server和Greenplum数据库的用户名。
    Greenplum Password 用户名的密码。

    提示: 要保护敏感信息(例如用户名和密码),可以使用运行时资源或凭据存储。