hadoop简单啊点来说那是用了java语言写的分布式架构,用来一次性处理大数据的框架,主要注意思想就是正所谓的分组与合并思想了。所谓的分组:那就是诸如有一个规模大数据,那就都会把这个数据明确的算法来四等分若干份,接着总钱数都存储位置在附庸于主机上,还会在从属主机上头通过计算出,主节点就要注意全权负责hadoop的两个最重要的功能模块即hdfs和mapreduce的相关监督。
配置文件core-site.xml中的参数值填对了吧,应该要是hdfs不是hfds。
以外学习目的,个人感觉没有必要重新搭建生产级的hadoop集群。简单,个人堆建生产级平台没有加上的集群资源,假如购买市场上的资源,代价太高;如果你是,就算是垒建了,后期要大量的人力物力去接受魔兽维护;到最后,虽然的,除非堆建了,自己也没有大量数据在改环境上去使用。假如打算外界生产级hadoop集群,是可以工作过程中建议使用,像是大点的大数据企业都会有自己的大数据集群。自己去学习可以不在虚拟机上垒建hadoop集群,效果是也差不多的。
hadoop是三个能够对大量数据接受分布式处理的软件框架,用户是可以很快在hadoop上开发和运行处理海量数据的应用程序,充分利用资源集群的威力并且高速公路运算和存储。
怎末在用hadoop:
hadoop集群的重新搭建
简单点点说是把hadoop的安装包放在每一台服务器上,改改配置再正常启动,就成功了hadoop集群的搭建中。
上传文件到hadoop集群
hadoop集群重新搭建好以后,是可以实际web页面查找集群的情况,还这个可以实际hadoop下达命令上传文件到hdfs集群,通过hadoop下命令在hdfs集群上成立目录,命令彻底删除集群上的文件等等。
编写map/reduce程序
集成主板开发工具(比如eclipse)导出hadoop相关的jar包,c语言设计map/reduce程序,将程序打成jar包扔在集群上不能执行,运行后出计算结果。
hadoop生态圈中各个组件的作用描述:
①hdfs:一个文件系统,也可以存储海量数据。
②mapreduce:从海量数据中,实际一定会的算法,换算出没有用信息。
③hive:那是sql语句解释器,接收用户键入的sql语句,然后把将该sql语句英译中成紧张的mapreduce程序,并查找到mr集群中参与乘法运算,可以计算出用处不大的信息。
④hbase:是基于组件hdfs文件系统的数据库。
⑤flume:那就是将数据从一个文件中吸纳到另一个文件中。
⑥sqoop:将hdfs文件系统的文件,导出到linux文件系统的文件中。
⑦ooize/azkaban:该组件是负责去协调各个任务的执行顺序。