Google Pub/Sub Subscriber

支持的管道类型:

  •  Data Collector

Google Pub/Sub Subscriber源使用来自Google Pub/Sub Subscriber的消息。

当您配置源时,您将定义Google Pub/Sub订阅ID,以接收来自其的消息。您还定义了用于连接到Google Pub/Sub的项目和凭据提供程序。源端可以从Google应用程序默认凭据或Google Cloud服务帐户凭据文件检索凭据。

Google Pub/Sub Subscriber源可以使用多个线程来并行处理来自Google Pub/Sub Subscriber的数据。

如果可用,则Google Pub/Sub Subscriber源将用户定义的消息属性包括在记录头属性中。

凭据

Google Pub/Sub Subscriber源消费来自Google Pub/Sub Subscriber的消息时,必须将凭据传递给Google Cloud Storage。配置源端以从Google应用程序默认凭据或Google Cloud服务帐户凭据文件中检索凭据。

默认凭据提供程序

配置为使用Google Application Default Credentials时,源检查GOOGLE_APPLICATION_CREDENTIALS环境变量中定义的凭据文件 。如果环境变量不存在,并且Data Collector在Google Cloud Platform(GCP)中的虚拟机(VM)上运行,则源使用与虚拟机实例关联的内置服务帐户。

有关默认凭据的更多信息,请参阅Google Developer文档中的Google Application默认凭据

完成以下步骤以在环境变量中定义凭证文件:

  1. 使用Google Cloud Platform Console或 gcloud命令行工具创建Google服务帐户,并使您的应用程序使用该帐户进行API访问。

    例如,要使用命令行工具,请运行以下命令:

    gcloud iam service-accounts create my-account
    gcloud iam service-accounts keys create key.json --iam-account=my-account@my-project.iam.gserviceaccount.com
  2. 将生成的凭证文件存储在Data Collector计算机上。
  3. GOOGLE_APPLICATION_CREDENTIALS 环境变量添加到适当的文件,并将其指向凭据文件。

    使用安装类型所需的方法来修改环境变量。

    如下设置环境变量:

    export GOOGLE_APPLICATION_CREDENTIALS="/var/lib/sdc-resources/keyfile.json"
  4. 重新启动Data Collector以启用更改。
  5. 在该阶段的“Credentials选项卡上, 为凭据提供者选择“Default Credentials Provider”。

服务帐户凭据文件(JSON)

配置为使用Google Cloud Service帐户凭据文件时,源端检查在源端属性中定义的文件。

完成以下步骤以使用服务帐户凭据文件:

  1. 生成JSON格式的服务帐户凭据文件。

    使用Google Cloud Platform Console或gcloud命令行工具来生成和下载凭据文件。有关更多信息,请参阅Google Cloud Platform文档中的生成服务帐户凭据。

  2. 将生成的凭证文件存储在Data Collector计算机上。

    最佳做法是将文件存储在 Data Collector资源目录$SDC_RESOURCES中。

  3. 在该阶段的“Credentials选项卡上,为凭证提供者选择“Service Account Credentials File,然后输入凭证文件的路径。

多线程处理

Google Pub/Sub Subscriber源可以执行并行处理,并可以创建多线程管道。源端基于“Num Pipeline Runners”属性使用多个并发线程。

在管道运行时,每个线程都连接到源系统,创建一批数据,然后将这批数据传递给可用的管道运行器。管道运行器是无源管道实例 ——一种包括所有处理器、执行器和目标端的管道实例,并处理源端之后的所有管道处理逻辑。

每个管道运行器一次处理一批,就像在单个线程上运行的管道一样。当数据流变慢时,管道运行器会闲置等待,直到需要它们为止,并定期生成一个空批。您可以配置“Runner Idle Time”管道属性来指定间隔或选择退出空批次生成。

多线程管道保留每个批处理中的记录顺序,就像单线程管道一样。但是由于批次是由不同的流水线处理程序处理的,因此无法确保将批次写入目的地的顺序。

例如,假设您将Num Pipeline Runners属性设置为5。启动管道时,源端将创建五个线程,而Data Collector 会创建匹配数量的管道运行器。 接收到数据后,源端将批次传递给每个管道运行器进行处理。

每个管道运行器执行与其余管道相关联的处理。将一个批次写入流水线目标后,流水线运行器将可用于另一批数据。每个批次都应尽快处理和写入,这与其他流水线处理程序处理的其他批次无关,因此,批次的写入方式可能与读取顺序不同。

在任何给定的时刻,五个管道运行器每个都可以处理一批,因此该多线程管道一次最多可以处理五个批次。当传入数据变慢时,管道运行器将处于空闲状态,并在数据流增加时立即可用。

有关多线程管道的更多信息,请参见《多线程管道概述》。

记录头属性

Google Pub/Sub Subscriber源在记录头属性可用时将用户定义的消息属性包括在内。当源端处理Avro数据时,它将在AvroSchema记录头属性中包含Avro模式。

Google Pub/Sub消息包含有效载荷和描述有效载荷内容的可选属性。如果Google Pub/Sub Subscriber源使用带有可选属性的消息,则该源端将消息属性包括在记录头属性中。

您可以使用record:attribute或 record:attributeOrDefault函数来访问属性中的信息。有关使用记录头属性的更多信息,请参见使用头属性。

资料格式

Google Pub/Sub Subscriber源根据数据格式对数据的处理方式有所不同。Google Pub/Sub Subscriber源可以处理以下类型的数据:

Avro
为每个Avro记录生成一条记录。每个小数字段都包含 precisionscale 字段属性。
该阶段在avroSchema 记录头属性中包括Avro模式 。您可以使用以下方法之一来指定Avro模式定义的位置:

  • Message/Data Includes Schema -在文件中使用模式。
  • In Pipeline Configuration -使用您在阶段配置属性中提供的模式。
  • Confluent Schema Registry-从Confluent Schema Registry检索模式。Confluent Schema Registry是Avro模式的分布式存储层。您可以配置阶段以通过阶段配置中指定的模式ID或主题在Confluent Schema Registry中查找模式。
在阶段配置中使用模式或从Confluent Schema Registry检索模式会覆盖文件中可能包含的任何模式,并可以提高性能。
Binary
生成一条记录,在记录的根部有一个单字节数组字段。
当数据超过用户定义的最大数据大小时,源端将无法处理数据。因为未创建记录,所以源端无法将记录传递到管道以将其写为错误记录。相反,源端会产生阶段错误。
Delimited
为每个分隔的行生成一条记录。您可以使用以下分隔格式类型:

  • Default CSV-包含逗号分隔值的文件。忽略文件中的空行。
  • RFC4180 CSV-严格遵循RFC4180准则的逗号分隔文件。
  • MS Excel CSV -Microsoft Excel逗号分隔文件。
  • MySQL CSV -MySQL逗号分隔文件。
  • Tab-Separated Values -包含制表符分隔的值的文件。
  • PostgreSQL CSV -PostgreSQL逗号分隔文件。
  • PostgreSQL文本 -PostgreSQL文本文件。
  • Custom -使用用户定义的分隔符,转义符和引号字符的文件。
  • Multi Character Delimited-使用多个用户定义的字符分隔字段和行以及单个用户定义的转义和引号字符的文件。
您可以将列表或列表映射根字段类型用于分隔数据,并可以选择在标题行中包括字段名称(如有)。有关根字段类型的更多信息,请参见分隔数据根字段类型。
使用标题行时,可以启用对额外列的记录处理。额外列使用自定义的前缀和顺序递增的顺序整数,如命名 _extra_1, _extra_2。当您禁止额外列时,包含额外列的记录将发送到错误。
您也可以将字符串常量替换为空值。
当一条记录超过为该阶段定义的最大记录长度时,该阶段将根据为该阶段配置的错误处理来处理对象。
JSON
为每个JSON对象生成一条记录。您可以处理包含多个JSON对象或单个JSON数组的JSON文件。
当对象超过为源端定义的最大对象长度时,源端会根据为阶段配置的错误处理来处理对象。
Protobuf
为每个protobuf消息生成一条记录。
Protobuf消息必须与指定的消息类型匹配,并在描述符文件中进行描述。
当记录数据超过1 MB时,源端将无法继续处理文件中的数据。源端根据文件错误处理属性处理文件,并继续读取下一个文件。
有关生成描述符文件的信息,请参阅Protobuf数据格式先决条件。
SDC Record
为每条记录生成一条记录。用于处理由Data Collector管道使用SDC记录数据格式生成的记录。
对于错误记录,源端提供从原始管道中的源端读取的原始记录,以及可用于更正记录的错误信息。
处理错误记录时,源端希望原始管道生成的错误文件名和内容。
Text
根据自定义分隔符为每行文本或每段文本生成一条记录。
当一条线或一段超出为源端定义的最大线长时,源端会截断它。源端添加了一个名为Truncated的布尔字段,以指示该行是否被截断。
有关使用自定义分隔符处理文本的更多信息,请参见使用自定义分隔符的文本数据格式。
XML
根据用户定义的分隔符元素生成记录。在根元素下直接使用XML元素或定义简化的XPath表达式。如果未定义分隔符元素,则源端会将XML文件视为单个记录。
默认情况下,生成的记录包括XML属性和名称空间声明作为记录中的字段。您可以配置阶段以将它们包括在记录中作为字段属性。
您可以在字段属性中包含每个解析的XML元素和XML属性的XPath信息。这还将每个名称空间放在xmlns记录头属性中。
注意: 只有在目标中使用SDC RPC数据格式时,字段属性和记录头属性才会自动写入目标系统。有关使用字段属性和记录头属性以及如何将它们包括在记录中的更多信息,请参见字段属性和记录头属性。
当记录超过用户定义的最大记录长度时,源端将跳过该记录并继续处理下一条记录。它将跳过的记录发送到管道以进行错误处理。
使用XML数据格式来处理有效的XML文档。有关XML处理的更多信息,请参见阅读和处理XML数据。
提示: 如果要处理无效的XML文档,则可以尝试将文本数据格式与自定义分隔符一起使用。有关更多信息,请参见 使用自定义分隔符处理XML数据。

配置Google Pub/Sub Subscriber源

配置Google Pub/Sub Subscriber源以使用来自Google Pub/Sub Subscriber的消息。

  1. 在“Properties”面板的“General选项卡上,配置以下属性:
    一般属性 描述
    Name 阶段名。
    Description 可选说明。
    On Record Error 该阶段的错误记录处理:

    • Discard-放弃记录。
    • To Error-将记录发送到管道以进行错误处理。
    • Stop Pipeline-停止管道。
  2. 在“Pub/Sub选项卡上,配置以下属性:
    发布/订阅属性 描述
    Subscription ID Google Pub/Sub订阅ID,以接收消息。
    Num Pipeline Runners 源端生成并用于多线程处理的线程数。输入正整数或计算结果为正整数的表达式。

    默认情况下,源端使用以下表达式根据Data Collector计算机上可用的CPU内核数来配置属性:

    ${runtime:availableProcessors()}

    启动管道时将评估此表达式。

    Max Batch Size (records) 批处理中包含的最大记录数。接受的值最高为Data Collector的最大批处理大小。

    默认值是1000。

    Max Batch Wait Time (ms) 在发送空批次之前,源将等待填充批次的时间。
  3. 在“Credentials选项卡上,配置以下属性:
    凭证属性 描述
    Project ID 要连接的Google Pub/Sub项目ID。
    Credentials Provider 用于连接到Google Pub/Sub的凭据提供程序:

    • 默认凭证提供者
    • 服务帐户凭证文件(JSON)
    Credentials File Path (JSON) 使用Google Cloud服务帐户凭据文件时,源端用于连接到Google Pub/Sub的文件的路径。凭证文件必须是JSON文件。

    输入相对于Data Collector资源目录$SDC_RESOURCES的路径,或输入绝对路径。

  4. (可选)单击“Advanced选项卡以调整源端的性能。

    这些属性的默认值在大多数情况下都应该起作用:

    高级属性 描述
    Number of Subscribers 产生的订阅者数量。

    默认值为1。

    Subscriber Thread Pool Size 每个订户的线程池大小。输入正整数或计算结果为正整数的表达式。

    默认情况下,源使用以下表达式根据Data Collector 计算机上可用的CPU内核数来配置属性:

    ${5 * 10 * runtime:availableProcessors()}
    Custom Endpoint 接收消息的可选端点,以以下格式输入:

    <host name>:<port number>

    用于测试适用于Google Pub/Sub的Cloud SDK模拟器。

  5. 在“Data Format选项卡上,配置以下属性:
    数据格式属性 描述
    Data Format 要读取的数据类型。使用以下选项之一:

    • Avro
    • Binary
    • Delimited
    • JSON
    • Protobuf
    • SDC Record
    • Text
    • XML
  6. 对于Avro数据,在“Data Format选项卡上,配置以下属性:
    Avro属性 描述
    Avro Schema Location 处理数据时要使用的Avro模式定义的位置:

    • Message/Data Includes Schema-在文件中使用模式。
    • In Pipeline Configuration-使用阶段配置中提供的模式。
    • Confluent Schema Registry-从Confluent Schema Registry检索模式。

    在阶段配置中或在Confluent Schema Registry中使用模式可以提高性能。

    Avro Schema 用于处理数据的Avro模式定义。覆盖与数据关联的任何现有模式定义。

    您可以选择使用该 runtime:loadResource函数来加载存储在运行时资源文件中的模式定义。

    Schema Registry URLs 用于查找模式的Confluent Schema Registry URL。要添加URL,请单击添加,然后以以下格式输入URL:

    http://<host name>:<port number>
    Basic Auth User Info 使用基本身份验证时连接到Confluent Schema Registry所需的用户信息。

    schema.registry.basic.auth.user.info使用以下格式从Schema Registry中的设置中输入密钥和机密 :

    <key>:<secret>
    提示: 要保护敏感信息(例如用户名和密码),可以使用运行时资源或凭据存储。
    Lookup Schema By 在Confluent Schema Registry中查找模式的方法:

    • Subject-查找指定的Avro模式主题。
    • Schema ID-查找指定的Avro schema ID。

    覆盖与数据关联的任何现有模式定义。

    Schema Subject Avro模式需要在Confluent Schema Registry中查找。

    如果指定的主题具有多个模式版本,则源使用该主题的最新模式版本。要使用旧版本,请找到相应的模式ID,然后将“Look Up Schema By属性设置为“Schema ID”。

    Schema ID 在Confluent Schema Registry中查找的Avro模式ID。
  7. 对于二进制数据,在“Data Format选项卡上,配置以下属性:
    二进制属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Max Data Size (bytes) 消息中的最大字节数。较大的消息无法处理或写入错误。
  8. 对于分隔数据,在“Data Format选项卡上,配置以下属性:
    分隔属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Delimiter Format Type 分隔符格式类型。使用以下选项之一:

    • Default CSV-包含逗号分隔值的文件。忽略文件中的空行。
    • RFC4180 CSV-严格遵循RFC4180准则的逗号分隔文件。
    • MS Excel CSV -Microsoft Excel逗号分隔文件。
    • MySQL CSV -MySQL逗号分隔文件。
    • Tab-Separated Values -包含制表符分隔的值的文件。
    • PostgreSQL CSV -PostgreSQL逗号分隔文件。
    • PostgreSQL Text -PostgreSQL文本文件。
    • Custom -使用用户定义的分隔符,转义符和引号字符的文件。
    • Multi Character Delimited-使用多个用户定义的字符分隔字段和行以及单个用户定义的转义和引号字符的文件。
    Header Line 指示文件是否包含标题行以及是否使用标题行。
    Allow Extra Columns 使用标题行处理数据时,允许处理的记录列数超过标题行中的列数。
    Extra Column Prefix 用于任何其他列的前缀。额外的列使用前缀和顺序递增的整数来命名,如下所示: <prefix><integer>

    例如,_extra_1。默认值为 _extra_

    Max Record Length (chars) 记录的最大长度(以字符为单位)。较长的记录不会被读取。

    此属性可以受数据收集器解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Delimiter Character 自定义分隔符格式的分隔符。选择一个可用选项,或使用“其他”输入自定义字符。

    您可以输入使用格式为Unicode控制符\uNNNN,其中N是数字0-9或字母AF十六进制数字。例如,输入 \u0000以使用空字符作为分隔符,或 \u2028使用行分隔符作为分隔符。

    默认为竖线字符(|)。

    Multi Character Field Delimiter 用于分隔多字符分隔符格式的字段的字符。

    默认值为两个竖线字符(||)。

    Multi Character Line Delimiter 以多字符分隔符格式分隔行或记录的字符。

    默认值为换行符(\ n)。

    Escape Character 自定义字符或多字符分隔符格式的转义字符。
    Quote Character 自定义或多字符分隔符格式的引号字符。
    Enable Comments 自定义分隔符格式允许注释的数据被忽略。
    Comment Marker 为自定义分隔符格式启用注释时,标记注释的字符。
    Ignore Empty Lines 对于自定义分隔符格式,允许忽略空行。
    Root Field Type 要使用的根字段类型:

    • List-Map-生成数据索引列表。使您能够使用标准功能来处理数据。用于新管道。
    • List-生成带有索引列表的记录,该列表带有标头和值的映射。需要使用分隔数据功能来处理数据。仅用于维护在1.1.0之前创建的管道。
    Lines to Skip 读取数据前要跳过的行数。
    Parse NULLs 将指定的字符串常量替换为空值。
    NULL Constant 代表空值的字符串常量。
    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  9. 对于JSON数据,在“Data Format选项卡上,配置以下属性:
    JSON属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    JSON Content JSON内容的类型。使用以下选项之一:

    • Array of Objects
    • Multiple Objects
    Maximum Object Length (chars) JSON对象中的最大字符数。

    较长的对象将转移到管道以进行错误处理。

    此属性可以受Data Collector解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  10. 对于protobuf数据,在“Data Format选项卡上,配置以下属性:
    Protobuf属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Protobuf Descriptor File 要使用的描述符文件(.desc)。描述符文件必须位于Data Collector资源目录中$SDC_RESOURCES

    有关环境变量的更多信息,请参阅《 Data Collector环境配置》。有关生成描述符文件的信息,请参阅Protobuf数据格式先决条件。

    Message Type 读取数据时使用的消息类型的全限定名称。

    使用以下格式: <package name>.<message type>

    使用在描述符文件中定义的消息类型。

    Delimited Messages 指示一个文件是否可能包含多个protobuf消息。
  11. 对于SDC Record数据,在“Data Format选项卡上,配置以下属性:
    SDC记录属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

  12. 对于文本数据,在“Data Format选项卡上,配置以下属性:
    文字属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Max Line Length 一行中允许的最大字符数。较长的行被截断。

    在记录中添加一个布尔字段,以指示该记录是否被截断。字段名称为“Truncated”。

    此属性可以受数据收集器解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Use Custom Delimiter 使用自定义分隔符来定义记录而不是换行符。
    Custom Delimiter 用于定义记录的一个或多个字符。
    Include Custom Delimiter 在记录中包括分隔符。
    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  13. 对于XML数据,在“Data Format选项卡上,配置以下属性:
    XML属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Delimiter Element

    用于生成记录的分隔符。省略分隔符会将整个XML文档视为一条记录。使用以下之一:

    • 在根元素下方的XML元素。

      使用不带尖括号(<>)的XML元素名称。例如,用msg代替<msg>。

    • 一个简化的XPath表达式,指定要使用的数据。

      使用简化的XPath表达式访问XML文档中更深的数据或需要更复杂访问方法的数据。

      有关有效语法的更多信息,请参见简化的XPath语法。

    Include Field XPaths 在字段属性中包括每个解析的XML元素的XPath和XML属性。还包括xmlns记录头属性中的每个名称空间。

    如果未选中,则此信息不包含在记录中。默认情况下,未选择该属性。

    注意: 只有在目标中使用SDC RPC数据格式时,字段属性和记录头属性才会自动写入目标系统。有关使用字段属性和记录标题属性以及如何将它们包括在记录中的更多信息,请参见字段属性和记录标题属性。
    Namespaces 解析XML文档时使用的命名空间前缀和URI。当所使用的XML元素包含名称空间前缀或XPath表达式包含名称空间时,定义名称空间。

    有关将名称空间与XML元素一起使用的信息,请参见将XML元素与名称空间一起使用。

    有关将名称空间与XPath表达式一起使用的信息,请参阅将XPath表达式与名称空间一起使用。

    使用简单或批量编辑模式,单击添加图标以添加其他名称空间。

    Output Field Attributes 在记录中包括XML属性和名称空间声明作为字段属性。如果未选择,则XML属性和名称空间声明作为字段包含在记录中。

    注意: 只有在目标中使用SDC RPC数据格式时,字段属性才会自动包含在写入目标系统的记录中。有关使用字段属性的更多信息,请参见字段属性。

    默认情况下,未选择该属性。

    Max Record Length (chars)

    记录中的最大字符数。较长的记录将转移到管道以进行错误处理。

    此属性可以受Data Collector解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。