轻云服务器远程桌面
一、Hadoop集群环境搭建配置
1、前言
Hadoop的搭建分为三种形式:单机模式、伪分布模式、完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式。
2、硬件选择
须知:
(1)、分布式环境中一个服务器就是一个节点
云点播连接服务器失败
(2)、节点越多带来的是集群性能的提升
(3)、一个Hadoop集群环境中,NameNode,SecondaryNameNode和DataNode是需要分配不同的节点上,也就需要三台服务器
(4)、在Hadoop运行作业完成时,History Server来记录历史程序的运行情况,需要独立一台服务器
(5)、第一台:记录所有的数据分布情况,运行进程:NameNode第二台:备份所有数据分布情况,因为当前面的那台服务器宕机(日常所说的死机)时,可通过该服务器来恢复数据。所以,该服务器运行的程序就是:SecondaryNameNode第三台:存储实际数据,运行的进程就是;DataNode第四台:记录应用程序历史的运行状况。运行的程序就是:History Server。(可选)所以说,至少三台。
3、集群环境各个服务配置
在Hadoop集群环境中,最重要的就是NameNode运行的服务器是整个集群的调度和协调工作,还有一个很重要的进程是资源管理(真正的协调整个集群中每个节点的运行),所以配置要高于其他节点。4、软件选择
关于Hadoop集群环境软件的选择,无非就是围绕这个几个软件产品去选择:OS操作系统,Hadoop版本,JDK版本,Hive版本、MySQL版本等。
5、节点配置信息的分配
提前规划出四台服务器用来搭建Hadoop集群,然后分别为其分配了机器名称、IP,IP需要设置为统一网段,可根据使用的情况,进行动态调整的。
另外说明:搭建了两台Ubuntu的服务器来单独安装MySQLServer,搭建了一个主从模式,Ubuntu是一个界面友好的操作系统,这里和Hadoop集群分离的目的是因为Mysql数据库是比较占内存资源的,所以我们单独机器来安装,当然,MySQL并不是Hadoop集群所需要的,两者没有必然的关系,这里搭建它的目的就为了后续安装Hive来分析数据应用的,并且我们可以在这个机器里进行开发调试,当然Window平台也可以,毕竟我们使用Windows平台是最熟练的。(hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。)
回到顶部
二、Hadoop集群环境安装
安装前需明了:
(一)、将Hadoop集群中的主节点分配2GB内存,然后剩余的三个节点都是1GB配置。
(二)、所有的节点存储都设置为50GB
1、CentOS安装
(1)、首先需要在VMWare中创建一个新的计算机,然后指定CentOS的镜像路径和用户名和密码。
(2)、指定当前虚拟机操作系统的存储大小(50GB)和内存大小(2GB)。
(3)、完成安装
(4)、至此,我们已经成功的安装上了CentOS操作系统,然后安装的过程中顺便创建了一个新用户Hadoop,这个账户就是我们后面安装Hadoop集群环境所使用的账号。
(5)、我们登录到CentOS操作系统,然后为了后续节点识别,要改计算机名。Master.Hadoop,然后重启。(不知理解是否有误)
(6)、切换到root用户
(7)、编辑/etc/sysconfig/network文件:vi /etc/sysconfig/network
保存该文件,重启计算机(reboot)查看是否生效:hostname(8)、设置固定IP(验证我们当前虚拟机是否能上网,IP是否能成功配置。),然后配置Host文件(添加集群对应ip与节点名)。(还有要改桥接模式(B):直接连接物理网络。现在用的是虚拟机,但是把它当成物理机一样,也给插上网线,连接到本地的网络中去。当然,如果选择这种方式的前提是要保证局域网的网段和之前规划的IP是一致的,必须都是192.168.1.* 这种网段,这样的目的就是宿主机和我们的虚拟机能够直接通信,那就意味这主机能联网,我们的虚拟机就能联网。)
(9)、固定IP设置:首先配置DNS,对/etc/resolv.conf 文件进行修改或查看
配置固定IP地址:修改 /etc/sysconfig/network-scripts/ifcfg-eth0 文件 重启网络:/etc/init.d/network restart或service network restart修改成功: ping通网络。修改host文件 重启服务器2、Hadoop安装与配置
(1)、下载Hadoop安装包,然后进入Hadoop集群的搭建工作。把jdk和Hadoop包下载或上传到/home/hadoop/Downloads/下
Hadoop环境的配置分为两步:1、Java环境配置;2、Hadoop配置。因为Hadoop就是Java语言编写的,所以一定要先配置好Java环境。
jdk的安装与配置:一般将安装的程序存到/usr目录下,所以创建Java目录:mkdir /usr/java,更改权限chown hadoop:hadoop /usr/java/,查看ll /usr更改系统的环境变量vim /etc/profile添加脚本set java environmentexportJAVA_HOME=/usr/java/jdk1.8.0_121exportCLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexportPATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin将解压好的jdk移到/usr/java目录中:cp -r jdk1.8.0_121 /usr/java/查看版本:java -versionHadoop的安装与基本配置:与Jdk配置类似,--/usr目录下,创建hadoop目录mkdir /usr/hadoop--拷贝解压后的hadoop安装包cp -r hadoop-2.6.4 /usr/hadoop--赋权给Hadoop用户chown hadoop:hadoop /usr/hadoop/--查看确认ll /usr/对几个关键的文件进行配置:转到目录:cd /usr/hadoop/hadoop-2.6.4/配置第一个文件vim etc/hadoop/core-site.xml<configuration><property><name>fs.defaultFS