Hadoop权威指南-3.7 通过Flume和Sqoop导入数据 - 高飞网

3.7 通过Flume和Sqoop导入数据

2016-10-21 15:54:56.0

    不需要重新写一个应用程序来将数据导入HDFS中,更值得考虑的是使用一些现成的工具将数据导入,因为这些工具已经涵盖了很多常用的需求。

    Apache Flume是一个将大规模数据导入HDFS的工具。最典型的是从另外一个系统中收集日志数据——例如,银行的网络服务器——并实现在HDFS中的聚集操作以便用于后期的分析操作。Flume能够支持大师的数据源,其中一些通常用于包含tail,syslog和apache log4j的系统。

    Flume节点允许以任何拓扑方式进行组织。典型配置是在每个源机器(例如每个Web服务器)上运行一个Flume节点,通过多个层级的聚合节点,最后将数据存入HDFS中。

    另一方面,Apache Sqoop是为了将数据从结构化存储设备批量导入HDFS中设计的,例如关系数据库。Sqoop的应用场景,是组织将白天生产的数据库中的数据在晚间导入Hive数据仓库中进行分析。