启用外部JMX工具

Data Collector使用JMX度量来生成正在运行的管道状态的图形显示。如果需要,可以向外部工具提供相同的JMX指标。

JMX指标提供的信息包括管道详细信息,例如表示每批错误记录的数量或管道使用的内存量的直方图。还提供了与阶段相关的详细信息,例如输出记录数或阶段错误。某些阶段具有与阶段相关的自定义指标。

以下Java环境变量在指定端口上公开了Data Collector JMX指标,从而允许与外部工具集成:

  • com.sun.management.jmxremote
  • com.sun.management.jmxremote.port=<port_number>
  • com.sun.management.jmxremote.local.only=<true | false>
  • com.sun.management.jmxremote.authenticate=<true | false>
  • com.sun.management.jmxremote.ssl=<true | false>

您可以在命令行中将变量作为SDC_JAVA_OPTS环境变量的一部分传递。或者,您可以将变量添加到安装类型所需文件中的SDC_JAVA_OPTS环境变量中,如修改环境变量中所述。

例如,以下变量集通过端口3333传递JMX指标:

export SDC_JAVA_OPTS="-Dcom.sun.management.jmxremote \
-Dcom.sun.management.jmxremote.port=3333 \
-Dcom.sun.management.jmxremote.local.only=false \
-Dcom.sun.management.jmxremote.authenticate=false \
-Dcom.sun.management.jmxremote.ssl=false"

在外部工具中查看JMX指标

您可以在外部工具中查看Data Collector JMX指标。Data Collector JMX指标名称都以“sdc.pipeline”开头。

Data Collector JMX指标使用以下命名模式:

sdc.pipeline.<pipeline name>.<pipeline revision>.<category: pipeline|stage|custom>.\
[<stage library>_<library revision>].<metric name>.<metric type>

例如,以下是批次计数指标,用于名为Write to Kafka的管道的第一次修订:

sdc.pipeline.Write to Kafka.0.pipeline.batchCount.meter

以下指标是File Tail源在相同的Write to Kafka管道中消耗的内存的计数器:

sdc.pipeline.Write to Kafka.0.stage.\
com_streamsets_pipeline_stage_origin_logtail_FileTailDSource_1.memoryConsumed.counter

自定义指标

Data Collector在某些阶段提供自定义指标。当管道包含以下阶段时,您可以在“监视器”模式下在Data Collector UI中查看这些阶段的自定义指标,或者在使用外部工具查看JMX指标时:

File Tail origin
除了可用于源端的标准度量标准之外,File Tail还提供以下自定义指标:

  • 偏移延迟-正在读取的文件中剩余的数据量。该指标在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_origin_logtail_FileTailDSource_\
    <library version>.offsets.lag.<file path>.counter
  • 待处理文件-目录中仍需要读取的文件数。该指标在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_origin_logtail_FileTailDSource_\
    <library version>.pending.files.<file path>.counter
Amazon S3 destination
除了可用于源端的标准指标之外,Amazon S3还提供以下自定义指标:
  • 传输速率KB指标-以KB为单位显示传输速率。当目标以整个文件数据格式将整个文件写入目标系统时出现。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_s3_\
    AmazonS3DTarget_<library version>.transferRateKb.meter
Hadoop FS destination
除了可用于源端的标准指标之外,Hadoop FS还提供以下自定义指标:

  • 延迟记录指标和计数器-写入HDFS的延迟记录数。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_HdfsTarget_\ 
    HDFSDTarget_<library version>.lateRecords.<counter | metric>
  • 到HDFS记录数指标和计数器。写入HDFS的记录数。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_HdfsTarget_\
    HDFSDTarget_<library version>.hdfsRecords.<counter | metric> 
  • 传输速率KB指标-以KB为单位显示传输速率。当目标以整个文件数据格式将整个文件写入目标系统时出现。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_HdfsTarget_HDFSDTarget_\
    <library version>.transferRateKb.meter
Local FS destination
除了可用于源端的标准指标外,Local FS还提供以下自定义指标:

  • 延迟记录指标和计数器-写入本地文件系统的延迟记录数。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_localfilesystem_\
    LocalFileSystemDTarget_<library version>.lateRecords.\
    <counter | metric>
  • 到本地文件系统记录指标和计数器。写入本地文件系统的记录数。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_localfilesystem_\
    LocalFileSystemDTarget_<library version>.hdfsRecords.\
    <counter | metric>
  • 传输速率KB指标-以KB为单位显示传输速率。当目标以整个文件数据格式将整个文件写入目标系统时出现。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_localfilesystem_\
    LocalFileSystemDTarget_<library version>.transferRateKb.meter
MapR FS destination
除了可用于源端的标准度量标准之外,MapR FS还提供以下自定义度量标准:

  • 延迟记录仪表和计数器-写入MapR FS的延迟记录数。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_marpfs_\
    MaprFSDTarget_<library version>.lateRecords.<counter | metric>
  • 到文件系统记录数指标和计数器。写入MapR FS的记录数。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_marpfs_\
    MaprFSDTarget_<library version>.hdfsRecords.<counter | metric>
  • 传输速率KB指标-以KB为单位显示传输速率。当目标以整个文件数据格式将整个文件写入目标系统时出现。计数器在外部工具中显示如下:
    sdc.pipeline.<pipeline name>.<pipeline revision>.custom.\
    com_streamsets_pipeline_stage_destination_marpfs_MaprFSDTarget_\
    <library version>.transferRateKb.meter