Record Deduplicator

支持的管道类型:

  •  Data Collector

Record Deduplicator会评估记录中是否有重复数据,并将数据路由到两个流中——一个流用于去重记录,一个流用于重复记录。使用Record Deduplicator丢弃重复数据或通过不同的处理逻辑路由重复数据。

Record Deduplicator可以比较整个记录或一个子集的字段。使用字段子集将比较重点放在关注的字段上。例如,要丢弃意外提交超过一次的订单,您可以比较有关采购商、选定商品和送货地址的信息,但忽略事件的时间戳。

为了提高管道性能,Record Deduplicator对比较字段进行哈希处理,并使用哈希值评估重复项。在极少数情况下,哈希函数会产生冲突,从而导致记录被错误地视为重复项。

比较窗口

Record Deduplicator缓存记录信息以进行比较,直到达到指定的记录数为止。然后,它将丢弃缓存中的信息并重新开始。

您可以配置时间限制,以按固定的时间间隔触发缓存刷新。配置时间限制时,时间限制优先于记录限制。

当您停止管道时,Record Deduplicator将丢弃内存中的所有信息。

配置Record Deduplicator

使用Record Deduplicator来路由或删除具有重复数据的记录。
  1. 在“Properties”面板的“General选项卡上,配置以下属性:
    一般属性 描述
    Name 阶段名。
    Description 可选说明。
    Required Fields 必须包含用于将记录传递到阶段的记录的数据的字段。

    提示:您可能包括阶段使用的字段。

    根据为管道配置的错误处理,处理不包括所有必填字段的记录。

    Preconditions 必须评估为TRUE的条件才能使记录进入处理阶段。单击 添加以创建其他前提条件。

    根据为该阶段配置的错误处理,处理不满足所有前提条件的记录。

  2. 在“Deduplication选项卡上,配置以下属性:
    记录重复数据删除器属性 描述
    Max Records to Compare 要比较的最大记录数。达到此数字后,Record Deduplicator将清除其缓存。
    Time to Compare 比较记录的秒数。此属性优先于要比较的最大记录数。

    使用0退出此属性。

    Compare 指定要比较的字段。使用以下选项之一:

    • All Fields-比较记录中的所有字段。
    • Specified Fields-比较指定的字段。
    Fields to Compare 要比较重复数据的字段子集。