使用云服务提供商进行安装

您可以 使用云服务提供商(例如Microsoft Azure,Microsoft Azure HDInsight或Amazon Web Services)安装完整的 Data Collector

在Azure上安装Data Collector

您可以在Microsoft Azure上托管的CentOS 7.x虚拟机上安装完整的Data Collector

在Azure上安装Data Collector时,您将Data Collector作为服务运行。

  1. 登录到Microsoft Azure门户:https://portal.azure.com
  2. 在导航面板中,单击创建资源
  3. 在Marketplace中搜索StreamSets Data Collector for Microsoft Azure,然后单击创建
  4. 在“创建虚拟机 > 基础”页面上,输入新虚拟机的名称,登录到该虚拟机的用户名以及用于登录的身份验证方法。
    重要:请勿使用sdc用户名登录虚拟机。该sdc用户帐户必须保留为将Data Collector作为服务运行的系统用户帐户。

    您可以在新的或现有的资源组中创建虚拟机。

    您可以选择更改虚拟机的大小,但是默认大小在大多数情况下已足够。如果更改默认值,请选择满足最低Data Collector要求的大小。

    例如,下图创建了一个虚拟机,其名称 sdctrial为的用户 sdcuser可以使用密码身份验证登录到该虚拟机。虚拟机是在名为的新资源组中创建的sdctrial

  5. 单击下一步
  6. 在“高级”下的“磁盘”页面上,确认已启用“使用托管磁盘”
  7. 在其余页面上,接受默认设置或配置可选功能。
    注意:虚拟机已自动配置为允许在用于HTTP协议的默认Data Collector端口18630上进行传入连接。如果在安装后更改默认端口或配置HTTPS,则还需要配置虚拟机以允许在更改的端口上进行传入连接。
  8. 在“查看和创建”页面中验证详细信息,然后单击“创建”
    资源部署和Data Collector作为服务启动可能需要几分钟 。
  9. 要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:
    http://<virtual machine IP address>:18630
    提示: 如果您不熟悉Data Collector,请考虑从教程开始。

在Azure HDInsight上安装Data Collector

您可以在Ubuntu 16.04的Microsoft Azure HDInsight集群上安装完整的Data Collector

在HDInsight上安装Data Collector时,会将Data Collector作为服务运行。

  1. 登录到Microsoft Azure门户:https://portal.azure.com
  2. 在导航面板中,单击创建资源
  3. 在Marketplace中搜索StreamSets Data Collector for HDInsight Cloud,然后单击创建
  4. 在“HDInsight”页面上,单击“自定义”(大小,设置,应用程序)
  5. 在“基本”页面上,输入集群名称,选择集群类型,然后输入集群登录用户名和密码。

    您可以在新的或现有的资源组中创建集群。

    例如,下图创建了一个sdctrial在Hadoop 2.7(HDI 3.6)群集上命名的集群。该集群是在名为的新资源组中创建的 sdctrial

  6. 单击下一步
  7. 在“安全性+网络”页面上,接受默认值或配置安全性选项,然后单击“下一步”
  8. 在“存储”页面上,配置存储选项,然后单击“下一步”
  9. 在“应用程序”页面上,单击“HDInsight的StreamSets Data Collector
  10. 查看并接受法律条款,单击“创建”,然后单击“下一步”
  11. 在“群大小”页面上,选择满足最低Data Collector要求的集群大小,然后单击“ 下一步”
  12. 在“脚本操作”页面上,单击“下一步”
  13. 验证“摘要”页面中的详细信息,然后单击“创建”
    部署集群最多可能需要20分钟。
  14. 成功部署集群后,在Azure门户中查看HDInsight集群,然后单击“应用程序”
  15. 找到适用于HDInsight Cloud 的StreamSets Data Collector应用程序,然后在“URI”列中单击“门户”以访问Data Collector UI。
    提示: 如果您不熟悉Data Collector,请考虑从教程开始。

在Amazon Web Services上安装Data Collector

您可以 使用在Amazon Web Services(AWS)EC2实例上托管的Amazon Machine Image(AMI)来安装Data Collector。在AWS上安装Data Collector时,您可以在自己的AWS EC2实例上将Data Collector作为服务运行。
  1. 请遵循Amazon文档来启动满足您要求的StreamSets Data Collector软件实例。
    a.选择AMI时, 在AWS Marketplace中搜索StreamSets并选择StreamSets Data Collector

    b.配置实例时,请设置以下要求:
    实例类型
    StreamSets建议从 t3.large实例类型开始。有关最低要求,请参阅安装要求

    c.安全组
    Data Collector需要一个打开端口18630的安全组。有关如何打开端口的信息,请参阅 Amazon文档

    启动实例时,请在“启动状态”页面上记下实例ID 。

    Data Collector的密码与实例ID匹配。

    AWS可能需要几分钟来启动实例。

  2. 要访问Data Collector,请在浏览器的地址栏中输入以下URL:
    http://<Public DNS of EC2 instance>:18630

    例如,如果您的DNS是 ec2-12-345-678-999.compute-1.amazonaws.com,则输入:

    http://ec2-12-345-678-999.compute-1.amazonaws.com:18630
  3. 要登录,请输入admin用户名和实例ID作为密码。
    提示: 如果您不熟悉Data Collector,请考虑从教程开始。