MQTT Subscriber

支持的管道类型:

  •  Data Collector

  •  Data Collector Edge

MQTT Subscriber源订阅MQTT代理上的主题,以从代理读取消息。源充当接收消息的MQTT客户端,为每个消息生成一条记录。

配置源时,可以指定连接到MQTT代理所需的信息。当MQTT代理需要用户名和密码时,必须定义连接凭证。您还可以配置SSL/TLS属性,包括默认的传输协议和密码套件。

您可以在源订阅的MQTT代理上指定一个或多个主题。来源包括记录头属性中每个记录的来源主题名称。

您还可以配置服务质量级别和源用来启用可靠消息传递的持久性机制。

边缘管道先决条件

在Data Collector Edge管道中, MQTT阶段需要使用中间MQTT代理。

例如,边缘发送管道使用MQTT Publisher目标写入MQTT代理。MQTT代理临时存储数据,直到Data Collector接收管道中的MQTT Subscriber源读取数据为止。

主题

MQTT Subscriber源从MQTT代理上的一个或多个主题读取消息。主题是代理用来过滤每个已连接客户端的消息的字符串。

配置源端时,可以定义一个或多个主题名称。您可以在一个主题中包括多个主题级别。例如,以下主题具有三个主题级别:

sales/US/NorthernRegion

您可以使用StreamSets表达式语言来定义主题名称。您还可以在主题名称中使用MQTT通配符,例如单级通配符(+)或多级通配符(#)。

有关更多信息,请参见HiveMQ documentation on MQTT topics

记录头属性

MQTT Subscriber源创建一个记录头属性,该属性包含有关记录来源的信息。

您可以使用record:attribute或 record:attributeOrDefault函数来访问属性中的信息。有关使用记录头属性的更多信息,请参见使用头属性。

MQTT Subscriber源创建以下记录头属性:

  • TOPIC_HEADER_NAME-包括每条记录的原始主题。

数据格式

MQTT Subscriber源根据您选择的数据格式对数据进行不同的处理。

在Data Collector Edge管道中, 源仅支持Binary,Delimited,JSON,SDC Record和Text数据格式。

MQTT Subscriber源处理数据格式如下:

Binary
生成一条记录,在记录的根部有一个单字节数组字段。
当数据超过用户定义的最大数据大小时,源端将无法处理数据。因为未创建记录,所以源无法将记录传递到管道以将其写为错误记录。相反,源端会产生阶段错误。
Datagram
为每条消息生成一条记录。可以处理收集的消息,NetFlow 5和NetFlow 9消息以及以下类型的syslog消息:

  • RFC 5424
  • RFC 3164
  • 非标准通用消息,例如RFC 3339日期,没有版本数字
在处理NetFlow消息时,该阶段会根据NetFlow版本生成不同的记录。处理NetFlow 9时,将基于NetFlow 9配置属性生成记录。有关更多信息,请参见NetFlow数据处理。
Delimited
为每个分隔的行生成一条记录。您可以使用以下分隔格式类型:

  • Default CSV-包含逗号分隔值的文件。忽略文件中的空行。
  • RFC4180 CSV-严格遵循RFC4180准则的逗号分隔文件。
  • MS Excel CSV -Microsoft Excel逗号分隔文件。
  • MySQL CSV -MySQL逗号分隔文件。
  • Tab-Separated Values -包含制表符分隔的值的文件。
  • PostgreSQL CSV -PostgreSQL逗号分隔文件。
  • PostgreSQL文本 -PostgreSQL文本文件。
  • Custom -使用用户定义的分隔符,转义符和引号字符的文件。
  • Multi Character Delimited-使用多个用户定义的字符分隔字段和行以及单个用户定义的转义和引号字符的文件。
您可以将列表或列表映射根字段类型用于分隔数据,并可以选择在标题行中包括字段名称(如果有)。有关根字段类型的更多信息,请参见分隔数据根字段类型。
使用标题行时,可以启用带有其他列的记录处理。其他列使用自定义的前缀和顺序递增的顺序整数,如命名 _extra_1, _extra_2。当您禁止其他列时,包含其他列的记录将发送到错误。
您也可以将字符串常量替换为空值。
当一条记录超过为该阶段定义的最大记录长度时,该阶段将根据为该阶段配置的错误处理来处理对象。
JSON
为每个JSON对象生成一条记录。您可以处理包含多个JSON对象或单个JSON数组的JSON文件。
当对象超过为源端定义的最大对象长度时,源端会根据为阶段配置的错误处理来处理对象。
Log
为每个日志行生成一条记录。
当一行超过用户定义的最大行长时,源端将截断更长的行。
您可以将处理后的日志行作为字段包含在记录中。如果日志行被截断,并且您在记录中请求日志行,则源端包括被截断的行。
您可以定义要读取的日志格式或类型。
Protobuf
为每个protobuf消息生成一条记录。默认情况下,来源假定消息包含多个protobuf消息。
Protobuf消息必须与指定的消息类型匹配,并在描述符文件中进行描述。
当记录的数据超过1 MB时,源将无法继续处理消息中的数据。源根据阶段错误处理属性处理消息,并继续读取下一条消息。
有关生成描述符文件的信息,请参阅Protobuf数据格式先决条件。
SDC Record
为每条记录生成一条记录。用于处理由Data Collector管道使用SDC记录数据格式生成的记录。
对于错误记录,源端提供从原始管道中的源端读取的原始记录,以及可用于更正记录的错误信息。
处理错误记录时,源端希望原始管道生成的错误文件名和内容。
Text
根据自定义换行符为每行文本或每段文本生成一条记录。
当一行或一段超出为源端定义的最大行长时,源端会截断它。源端添加了一个名为Truncated的布尔字段,以指示该行是否被截断。
有关使用自定义换行符处理文本的更多信息,请参见使用自定义换行符的文本数据格式。
XML
根据用户定义的分隔符元素生成记录。在根元素下直接使用XML元素或定义简化的XPath表达式。如果未定义分隔符元素,则源端会将XML文件视为单个记录。
默认情况下,生成的记录包括XML属性和名称空间声明作为记录中的字段。您可以配置阶段以将它们包括在记录中作为字段属性。
您可以在字段属性中包含每个解析的XML元素和XML属性的XPath信息。这还将每个名称空间放在xmlns记录头属性中。

注意: 只有在目标中使用SDC RPC数据格式时,字段属性和记录头属性才会自动写入目标系统。有关使用字段属性和记录标题属性以及如何将它们包括在记录中的更多信息,请参见字段属性和记录标题属性。
当记录超过用户定义的最大记录长度时,源端将跳过该记录并继续处理下一条记录。它将跳过的记录发送到管道以进行错误处理。
使用XML数据格式来处理有效的XML文档。有关XML处理的更多信息,请参见阅读和处理XML数据。
提示: 如果要处理无效的XML文档,则可以尝试将文本数据格式与自定义分隔符一起使用。有关更多信息,请参见使用自定义分隔符处理XML数据。

配置MQTT Subscriber源

配置MQTT Subscriber以读取来自MQTT代理的消息。

在Data Collector Edge管道中, MQTT Subscriber源需要中间MQTT代理。

  1. 在“Properties”面板的“General选项卡上,配置以下属性:
    一般属性 描述
    Name 阶段名。
    Description 可选说明。
    On Record Error 该阶段的错误记录处理:

    • Discard-放弃记录。
    • To Error-将记录发送到管道以进行错误处理。
    • Stop Pipeline-停止管道。
  2. 在“MQTT”选项卡上,配置以下属性:
    MQTT属性 描述
    Broker URL MQTT代理URL。输入以下格式:

    <tcp | ssl>://<hostname>:<port>

    使用ssl与代理进行安全连接。

    例如:

    tcp://localhost:1883
    Client ID MQTT客户端ID。在连接到同一代理的所有客户端上,该ID必须唯一。

    您可以定义一个计算结果为客户端ID的表达式。例如,输入以下表达式以使用唯一的管道ID作为客户端ID:

    ${pipeline:id()}

    如果管道包含多个MQTT阶段,并且您想将唯一的管道ID用作两个阶段的客户机ID,请在客户机ID之前加上以下字符串:

    sub-${pipeline:id()} and pub-${pipeline:id()} 

    否则,所有阶段将使用相同的客户端ID。这可能会导致出现问题,例如消息消失。

    Topic Filter 要订阅的主题。使用简单或批量编辑模式,单击 添加图标以阅读其他主题。
    Quality of Service 确定用于保证消息传递的服务质量级别:

    • At Most Once (0)
    • At Least Once (1)
    • Exactly Once (2)

    有关更多信息,请参阅有关服务质量级别的HiveMQ文档。

    Client Persistence Mechanism 确定当服务质量级别至少一次或恰好一次时,源用来保证消息传递的持久性机制。选择以下选项之一:

    • Memory-将消息存储在Data Collector计算机的内存中,直到完成消息传递为止。
    • File-将消息存储在Data Collector计算机上的本地文件中,直到完成消息传递为止。

    当服务质量级别最多为一次时不使用。

    有关更多信息,请参阅有关客户端持久性的HiveMQ文档。

    Client Persistence Data Directory 配置文件持久性时,Data Collector计算机上的本地目录,源将源临时存储在文件中。

    启动Data Collector的用户必须具有对该目录的读写权限。

    Keep Alive Interval (secs) 允许与MQTT代理的连接保持空闲状态的最长时间(以秒为单位)。在此时间段内,原始服务器未收到任何消息后,将关闭连接。源必须重新连接到MQTT代理。

    默认值为60秒。

    Use Credentials 在“Credentials”选项卡上启用输入凭据。当MQTT代理要求用户名和密码时使用。
  3. 在“Credentials选项卡上,输入启用身份验证后要使用的MQTT凭据。
    提示: 要保护敏感信息(例如用户名和密码),可以使用 运行时资源或凭据存储。
  4. 要使用SSL/TLS,请在“TLS”选项卡上配置以下属性:

    在Data Collector Edge管道中,仅“Use TLS和“Truststore File属性有效。启用TLS后,为使用PEM格式的信任库文件输入绝对路径。在Data Collector Edge管道中,MQTT Subscriber源始终使用默认协议和密码套件。它忽略所有其他TLS属性。

    TLS属性 描述
    Use TLS 启用TLS的使用。
    Truststore File 信任库文件的路径。输入文件的绝对路径或相对于Data Collector资源目录$SDC_RESOURCES的路径。

    有关环境变量的更多信息,请参阅《Data Collector环境配置》。

    默认情况下,不使用任何信任库。

    在Data Collector Edge管道中,输入使用PEM格式的文​​件的绝对路径。

    Truststore Type 要使用的信任库的类型。使用以下类型之一:

    • Java Keystore File (JKS)
    • PKCS #12 (p12 file)

    默认值为Java Keystore File (JKS)。

    Truststore Password 信任库文件的密码。密码是可选的,但建议使用。

    提示:要保护敏感信息(例如密码),可以使用运行时资源或凭据存储。
    Truststore Trust Algorithm 用于管理信任库的算法。

    默认值为SunX509

    Use Default Protocols 确定要使用的传输层安全性(TLS)协议。默认协议是TLSv1.2。要使用其他协议,请清除此选项。
    Transport Protocols 要使用的TLS协议。要使用默认TLSv1.2以外的协议,请单击“添加”图标并输入协议名称。您可以使用简单或批量编辑模式来添加协议。

    注意:较旧的协议不如TLSv1.2安全。
    Use Default Cipher Suites 对SSL / TLS握手使用默认的密码套件。要使用其他密码套件,请清除此选项。
    Cipher Suites 要使用的密码套件。要使用不属于默认密码集的密码套件,请单击“ 添加”图标并输入密码套件的名称。您可以使用简单或批量编辑模式来添加密码套件。

    输入要使用的其他密码套件的Java安全套接字扩展(JSSE)名称。

  5. 在“Data Format选项卡上,配置以下属性:
    数据格式属性 描述
    Data Format 要处理的数据类型。使用以下数据格式之一:

    • Binary
    • Datagram
    • Delimited
    • JSON
    • Log
    • Protobuf
    • SDC Record
    • Text
    • XML

    在Data Collector Edge管道中, 源仅支持Binary,Delimited,JSON,SDC Record和Text数据格式。

  6. 对于二进制数据,在“Data Format选项卡上,配置以下属性:
    二进制属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。

    在Data Collector Edge管道中,源仅支持未压缩和压缩的文件,不支持存档或压缩的存档文件。

    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Max Data Size (bytes) 消息中的最大字节数。较大的消息无法处理或写入错误。
  7. 对于数据报数据,在“Data Format选项卡上,配置以下属性:
    数据报属性 描述
    Datagram Packet Format 数据包格式:

    • collectd
    • NetFlow
    • syslog
    • Raw/separated data
    TypesDB File Path 用户提供的types.db文件的路径。覆盖默认的types.db文件。

    仅用于collectd数据。

    Convert Hi-Res Time & Interval 将收集的高分辨率时间格式间隔和时间戳转换为UNIX时间(以毫秒为单位)。

    仅用于collectd数据。

    Exclude Interval 从输出记录中排除间隔字段。

    仅用于collectd数据。

    Auth File 可选身份验证文件的路径。使用认证文件接受签名和加密的数据。

    仅用于collectd数据。

    Record Generation Mode 确定要包含在记录中的值的类型。选择以下选项之一:

    • Raw Only
    • Interpreted Only
    • Both Raw and Interpreted

    仅适用于NetFlow 9数据。

    Max Templates in Cache 模板缓存中存储的最大模板数。有关模板的更多信息,请参见缓存NetFlow 9模板。

    对于无限的缓存大小,默认值为-1。

    仅适用于NetFlow 9数据。

    Template Cache Timeout (ms) 缓存空闲模板的最大毫秒数。超过指定时间未使用的模板将从缓存中逐出。有关模板的更多信息,请参见 缓存NetFlow 9模板。

    无限期缓存模板的默认值为-1。

    仅适用于NetFlow 9数据。

    Charset 要处理的消息的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  8. 对于分隔数据,在“Data Format选项卡上,配置以下属性:
    分隔属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。

    在Data Collector Edge管道中,源仅支持未压缩和压缩的文件,不支持存档或压缩的存档文件。

    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Delimiter Format Type 分隔符格式类型。使用以下选项之一:

    • Default CSV-包含逗号分隔值的文件。忽略文件中的空行。
    • RFC4180 CSV-严格遵循RFC4180准则的逗号分隔文件。
    • MS Excel CSV -Microsoft Excel逗号分隔文件。
    • MySQL CSV -MySQL逗号分隔文件。
    • Tab-Separated Values -包含制表符分隔的值的文件。
    • PostgreSQL CSV -PostgreSQL逗号分隔文件。
    • PostgreSQL Text -PostgreSQL文本文件。
    • Custom -使用用户定义的分隔符,转义符和引号字符的文件。
    • Multi Character Delimited-使用多个用户定义的字符分隔字段和行以及单个用户定义的转义和引号字符的文件。
    Header Line 指示文件是否包含标题行以及是否使用标题行。
    Allow Extra Columns 使用标题行处理数据时,允许处理的记录列数超过标题行中的列数。
    Extra Column Prefix 用于任何其他列的前缀。额外的列使用前缀和顺序递增的整数来命名,如下所示: <prefix><integer>

    例如,_extra_1。默认值为 _extra_

    Max Record Length (chars) 记录的最大长度(以字符为单位)。较长的记录不会被读取。

    此属性可以受数据收集器解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Delimiter Character 自定义分隔符格式的分隔符。选择一个可用选项,或使用“其他”输入自定义字符。

    您可以输入使用格式为Unicode控制符\uNNNN,其中N是数字0-9或字母AF十六进制数字。例如,输入 \u0000以使用空字符作为分隔符,或 \u2028使用行分隔符作为分隔符。

    默认为竖线字符(|)。

    Multi Character Field Delimiter 用于分隔多字符分隔符格式的字段的字符。

    默认值为两个竖线字符(||)。

    Multi Character Line Delimiter 以多字符分隔符格式分隔行或记录的字符。

    默认值为换行符(\ n)。

    Escape Character 自定义字符或多字符分隔符格式的转义字符。
    Quote Character 自定义或多字符分隔符格式的引号字符。
    Enable Comments 自定义分隔符格式允许注释的数据被忽略。
    Comment Marker 为自定义分隔符格式启用注释时,标记注释的字符。
    Ignore Empty Lines 对于自定义分隔符格式,允许忽略空行。
    Root Field Type 要使用的根字段类型:

    • List-Map-生成数据索引列表。使您能够使用标准功能来处理数据。用于新管道。
    • List-生成带有索引列表的记录,该列表带有标头和值的映射。需要使用分隔数据功能来处理数据。仅用于维护在1.1.0之前创建的管道。
    Lines to Skip 读取数据前要跳过的行数。
    Parse NULLs 将指定的字符串常量替换为空值。
    NULL Constant 字符串常量,用空值替换。
    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  9. 对于JSON数据,在数据格式选项卡上,配置以下属性:
    JSON属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。

    在Data Collector Edge管道中,源仅支持未压缩和压缩的文件,不支持存档或压缩的存档文件。

    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    JSON Content JSON内容的类型。使用以下选项之一:

    • Array of Objects
    • Multiple Objects
    Maximum Object Length (chars) JSON对象中的最大字符数。

    较长的对象将转移到管道以进行错误处理。

    此属性可以受数据收集器解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  10. 对于日志数据,在“Data Format选项卡上,配置以下属性:
    日志属性 描述
    Log Format 日志文件的格式。使用以下选项之一:

    • 通用日志格式
    • 合并日志格式
    • Apache错误日志格式
    • Apache访问日志自定义格式
    • 正则表达式
    • Grok模式
    • Log4j
    • 通用事件格式(CEF)
    • 日志事件扩展格式(LEEF)
    Max Line Length 日志行的最大长度。源端将截断较长的行。

    此属性可以受数据收集器解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Retain Original Line 确定如何处理原始日志行。选择将原始日志行作为字段包含在结果记录中。

    默认情况下,原始行被丢弃。

    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
    • 当选择“Apache访问日志自定义格式”时,请使用Apache日志格式字符串定义“Custom Log Format
    • 选择“正则表达式”时,输入描述日志格式的正则表达式,然后将要包括的字段映射到每个正则表达式组。
    • 选择Grok Pattern时,可以使用 Grok Pattern Definition字段定义自定义grok模式。您可以在每行上定义一个模式。

      在 Grok Pattern字段中,输入用于解析日志的模式。您可以使用预定义的grok模式,也可以使用Grok Pattern Definition中定义的模式创建自定义grok模式 。

      有关定义grok模式和支持的grok模式的更多信息,请参见定义Grok模式。

    • 选择Log4j时,定义以下属性:
      Log4j属性 描述
      On Parse Error 确定如何处理无法解析的信息:

      • Skip and Log Error-跳过读取行并记录阶段错误。
      • Skip, No Error-跳过读取行并且不记录错误。
      • Include as Stack Trace-包含无法解析为先前读取的日志行的堆栈跟踪的信息。该信息将添加到最后一个有效日志行的消息字段中。
      Use Custom Log Format 允许您定义自定义日志格式。
      Custom Log4J Format 使用log4j变量定义自定义日志格式。
  11. 对于protobuf数据,在“Data Format选项卡上,配置以下属性:
    Protobuf属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Protobuf Descriptor File 要使用的描述符文件(.desc)。描述符文件必须位于Data Collector资源目录$SDC_RESOURCES中 。

    有关生成描述符文件的信息,请参阅Protobuf数据格式先决条件。有关环境变量的更多信息,请参阅《 Data Collector环境配置》。

    Message Type 读取数据时使用的消息类型的全限定名称。

    使用以下格式: <package name>.<message type>

    使用在描述符文件中定义的消息类型。

    Delimited Messages 指示一条消息是否可能包含多个protobuf消息。
  12. 对于“SDC Record”数据,在“Data Format选项卡上,配置以下属性:
    SDC记录属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。

    在Data Collector Edge管道中,源仅支持未压缩和压缩的文件,不支持存档或压缩的存档文件。

    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

  13. 对于文本数据,在“Data Format选项卡上,配置以下属性:
    文字属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。

    在Data Collector Edge管道中,源仅支持未压缩和压缩的文件,不支持存档或压缩的存档文件。

    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Max Line Length 一行中允许的最大字符数。较长的行被截断。

    在记录中添加一个布尔字段,以指示该记录是否被截断。字段名称为“Truncated”。

    此属性可以受数据收集器解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Use Custom Delimiter 使用自定义定界符来定义记录而不是换行符。
    Custom Delimiter 用于定义记录的一个或多个字符。
    Include Custom Delimiter 在记录中包括定界符。
    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。
  14. 对于XML数据,在“Data Format选项卡上,配置以下属性:
    XML属性 描述
    Compression Format 文件的压缩格式:

    • None-仅处理未压缩的文件。
    • Compressed File-处理受支持的压缩格式压缩的文件。
    • Archive-处理通过支持的存档格式存档的文件。
    • Compressed Archive-处理通过支持的存档和压缩格式存档和压缩的文件。
    File Name Pattern within Compressed Directory 对于归档文件和压缩归档文件,使用文件名模式表示要在压缩目录中处理的文件。您可以使用UNIX样式的通配符,例如星号或问号。例如,*.json。

    默认值为*,它处理所有文件。

    Delimiter Element

    用于生成记录的分隔符。省略分隔符会将整个XML文档视为一条记录。使用以下之一:

    • 在根元素下方的XML元素。

      使用不带尖括号(<>)的XML元素名称。例如,用msg代替<msg>。

    • 一个简化的XPath表达式,指定要使用的数据。

      使用简化的XPath表达式访问XML文档中更深的数据或需要更复杂访问方法的数据。

      有关有效语法的更多信息,请参见简化的XPath语法。

    Include Field XPaths 在字段属性中包括每个解析的XML元素的XPath和XML属性。还包括xmlns记录头属性中的每个名称空间。

    如果未选中,则此信息不包含在记录中。默认情况下,未选择该属性。

    注意: 只有在目标中使用SDC RPC数据格式时,字段属性和记录头属性才会自动写入目标系统。有关使用字段属性和记录标题属性以及如何将它们包括在记录中的更多信息,请参见字段属性和记录标题属性。
    Namespaces 解析XML文档时使用的命名空间前缀和URI。当所使用的XML元素包含名称空间前缀或XPath表达式包含名称空间时,定义名称空间。

    有关将名称空间与XML元素一起使用的信息,请参见将XML元素与名称空间一起使用。

    有关将名称空间与XPath表达式一起使用的信息,请参阅将XPath表达式与名称空间一起使用。

    使用简单或批量编辑模式,单击添加图标以添加其他名称空间。

    Output Field Attributes 在记录中包括XML属性和名称空间声明作为字段属性。如果未选择,则XML属性和名称空间声明作为字段包含在记录中。

    注意: 只有在目标中使用SDC RPC数据格式时,字段属性才会自动包含在写入目标系统的记录中。有关使用字段属性的更多信息,请参见字段属性。

    默认情况下,未选择该属性。

    Max Record Length (chars)

    记录中的最大字符数。较长的记录将转移到管道以进行错误处理。

    此属性可以受Data Collector解析器缓冲区大小的限制。有关更多信息,请参见最大记录大小。

    Charset 要处理的文件的字符编码。
    Ignore Control Characters 除去制表符,换行符和回车符以外的所有ASCII控制字符。