处理器概述

处理器阶段代表您要执行的一类数据处理。您可以根据需要在管道中使用任意数量的处理器。

您可以根据管道的执行模式(standalone,cluster或edge)使用不同的处理器。为了帮助创建或测试管道,可以使用开发处理器。

仅standalone管道

在独立管道中,可以使用以下处理器:

  • Record Deduplicator -删除重复的记录。

standalone或cluster管道

在独立或集群管道中,可以使用以下处理器:

  • Base64 Field Decoder -将Base64编码的数据解码为二进制数据。
  • Base64 Field Encoder -使用Base64编码二进制数据。
  • Control Hub API -调用Control Hub API。
  • Couchbase Lookup -在Couchbase Server中执行查找,以丰富数据记录。
  • Databricks ML Evaluator -使用通过Databricks ML模型导出导出的机器学习模型来生成评估,评分或数据分类。
  • Data Generator -使用指定的数据格式将记录序列化为字段。
  • Data Parser -解析嵌入在字段中的NetFlow或syslog数据。
  • Delay -延迟将批次传递到管道的其余部分。
  • Encrypt and Decrypt Fields -加密或解密字段。
  • Expression Evaluator -对数据执行计算。也可以添加或修改记录头属性。
  • Field Flattener -展平嵌套的字段。
  • Field Hasher -使用算法对敏感数据进行编码。
  • Field Mapper -将表达式映射到一组字段以更改字段路径,字段名称或字段值。
  • Field Masker -屏蔽敏感的字符串数据。
  • Field Merger -合并复杂list或map中的字段。
  • Field Order -对map或list-map字段类型中的字段进行排序,并将字段输出为list-map或list根字段类型。
  • Field Pivoter – 透视list,map或list-map字段中的数据,并为该字段中的每个项目创建一条记录。
  • Field Remover -从记录中删除字段。
  • Field Renamer -重命名记录中的字段。
  • Field Replacer -替换字段值。
  • Field Splitter -将字段中的字符串值拆分为不同的字段。
  • Field Type Converter -转换字段的数据类型。
  • Field Zip -合并来自两个字段的list数据。
  • Geo IP -返回指定IP地址的地理位置和IP智能信息。
  • Groovy Evaluator -根据自定义Groovy代码处理记录。
  • HBase Lookup -在HBase中执行键值查找,以丰富数据记录。
  • Hive Metadata -与Hive Metastore目标端一起使用,作为Hive漂移同步解决方案的一部分。
  • HTTP Client -HTTP客户端处理器将请求发送到HTTP资源URL,并将结果写入字段。
  • HTTP Router – 根据记录头属性中的HTTP方法和URL路径将数据路由到不同的流。
  • JavaScript Evaluator -根据自定义JavaScript代码处理记录。
  • JDBC Lookup -通过JDBC连接在数据库表中执行查找。
  • JDBC Tee -通过JDBC连接将数据写入数据库表,并使用生成的数据库列中的数据丰富记录。
  • JSON Generator -将字段中的数据序列化为JSON编码的字符串。
  • JSON Parser -解析嵌入在字符串字段中的JSON对象。
  • Jython Evaluator -根据自定义Jython代码处理记录。
  • Kudu Lookup -在Kudu中执行查找以使记录丰富数据。
  • Log Parser -根据指定的日志格式解析字段中的日志数据。
  • MLeap Evaluator -使用存储在MLeap捆绑软件中的机器学习模型来生成评估,评分或数据分类。
  • MongoDB Lookup -在MongoDB中执行查找以用数据丰富记录。
  • PMML Evaluator -使用存储在PMML文档中的机器学习模型来生成数据的预测或分类。
  • PostgreSQL Metadata -跟踪源数据中的结构更改,然后创建和更改PostgreSQL表,作为PostgreSQL漂移同步解决方案的一部分。
  • Redis Lookup -在Redis中执行键-值查找,以丰富数据记录。
  • Salesforce Lookup -在Salesforce中执行查找以用数据丰富记录。
  • Schema Generator -为每个记录生成一个模式,并将该模式​​写入记录头属性。
  • Spark Evaluator -基于自定义Spark应用程序处理数据。
  • SQL Parser -解析字符串字段中的SQL查询。
  • Start Job -启动Control Hub作业。
  • Start Pipeline -启动Data CollectorData Collector Edge或Transformer管道。
  • Static Lookup -在本地内存中执行键值查找。
  • Stream Selector -根据条件将数据路由到不同的流。
  • TensorFlow Evaluator -使用TensorFlow机器学习模型来生成数据的预测或分类。
  • Value Replacer (过期)  -用常量或空值替换现有的空值或指定的值。
  • Whole File Transformer -将Avro文件转换为Parquet。
  • Windowing Aggregator -在一个时间范围内执行聚合,在监控模式下显示结果,并在启用后将结果写入事件。该处理器不更新正在评估的记录。
  • XML Flattener-在字符串字段中展平 XML数据。
  • XML Parser -解析字符串字段中的XML数据。

edge管道

在边缘管道中,可以使用以下处理器:

  • Expression Evaluator -对数据执行计算。也可以添加或修改记录标题属性。
  • Field Remover -从记录中删除字段。
  • JavaScript Evaluator -根据自定义JavaScript代码处理记录。
  • Stream Selector -根据条件将数据路由到不同的流。
  • TensorFlow Evaluator -使用TensorFlow机器学习模型来生成数据的预测或分类。

开发处理器

为了帮助创建或测试管道,可以使用以下开发处理器:
  • Dev Identity

  • Dev Random Error

  • Dev Record Creator

有关更多信息,请参见开发阶段。