Skip to content

CDH构建大数据平台-使用自建的镜像地址安装Cloudera Manager

一、简介

目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks版本(HDP)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。
CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。

从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,并且只能通过付费墙进行访问。即目前Apache社区版本外均采用商业付费模式。但社区版在版本管理、部署运维、生态即安全方面还有很多不足之处,故本文意在通过自建镜像方式部署CDH版本Hadoop

1.环境准备

1.1主机资源准备

测试环境采用Mac本地部署虚拟机方式安装3台centos7基础web服务器。 
最小配置为: 
- Hadoop01(CM-server|Agent)内存最小4G推荐12-16G;
- Hadoop02(Agent)内存最小4G推荐8-16G;  
- Hadoop03(Agent)内存最小4G推荐8-16G;

1.2系统环境准备

  • 网络配置:所有节点使用静态IP
  • 主机名:修改所有节点主机名并加入到hosts文件
  • 防火墙关闭:systemctl stop firewalld && systemctl disable firewalld
  • selinux关闭:sed -i 's/^SELINUX=./SELINUX=disabled/' /etc/selinux/config && setenforce 0
  • NTP时间同步:虚拟机可选择相同时区即可,生产环境配置局区域内NTP
  • SSH免密登录:所有节点分别执行ssh-keygen -t rsa、ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop[01-03]
  • 设置文件打开数据和用户最大进程数:通过修改limits.conf进行优化

1.3安装包与依赖

所有节点安装:yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse fuse-libs redhat-lsb postgresql portmap mod_ssl openssl-devel python-psycopg2 MySQL-python

2.搭建私仓

cm-server或者任意一台同局域网同网段内服务安装web服务并启动,yum -y install httpd && systemctl start httpd; 下载对应的CM资源到web目录,下载地址:http://ro-bucharest-repo.bigstepcloud.com/cloudera-repos/ 创建repodata数据文件,yum -y install createrepo && cd /var/www/html/cm-6.2.0/ && createrepo . 创建本地yum文件cloudra-manager.repo,并将文件放置在私仓web目录。

# Packages for Cloudera Manager, Version 5, on RedHat or CentOS 7 x86_64                  
name=Cloudera Manager
baseurl=http://172.16.3.109/cm-6.2.0/
gpgkey =http://172.16.3.109/cm-6.2.0/RPM-GPG-KEY-cloudera    
enabled = 1
gpgcheck = 0

配置集群本地yum源,mkdir /etc/yum.repos.d/repo-backup && mv /etc/yum.repos.d/*.rpo repo-backup

部署CM-server

1>安装MySQL数据库,测试单台5.6正式可使用主从5.7 MySQL5.6.51安装指导详见https://blog.csdn.net/yy8623977/article/details/118090371 2>配置元数据库详见https://www.cnblogs.com/yinzhengjie/articles/10384065.html 3>配置CM

sed -i s'[[Xmx2G]][[Xmx4G]]#' /etc/default/cloudera-scm-server && grep CMF_JAVA_OPTS /etc/default/cloudera-scm-server 
export CMF_JAVA_OPTS="-Xmx4G -XX:MaxPermSize=256m -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp" 

4>初始化数据库,/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm scm moses && systemctl start cloudera-scm-server

部署CM-Agent

节点安装依赖包,更换本地yum源安装CM-Agent,配置config.ini文件的CM地址。

HDFS服务安装时报错:su - hdfs && hdfs dfsadmin -safemode leave