安装前准备
系统要求
- 操作系统:CentOS/RHEL 7.x 或 Ubuntu 18.04 LTS(推荐)
- 硬件配置:
- 主节点:16GB RAM+,4核CPU+,100GB磁盘
- 工作节点:8GB RAM+,2核CPU+,50GB磁盘
- 网络:
- 所有节点配置静态IP
- 确保节点间主机名可解析(修改
/etc/hosts
) - 关闭防火墙:
systemctl stop firewalld && systemctl disable firewalld
- 禁用SELinux:
setenforce 0
并修改/etc/selinux/config
为disabled
环境初始化
sudo systemctl stop firewalld sudo systemctl disable firewalld sudo swapoff -a sudo sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab # 配置NTP时间同步 sudo yum install -y ntp # CentOS sudo apt-get install ntp -y # Ubuntu sudo systemctl start ntpd sudo systemctl enable ntpd # 创建CDH专用用户 sudo groupadd hadoop sudo useradd -g hadoop hdfs
安装Cloudera Manager
步骤1:配置Cloudera仓库
sudo wget https://archive.cloudera.com/cm6/6.3.1/cloudera-manager.list -P /etc/apt/sources.list.d/ # Ubuntu # 导入GPG密钥 sudo rpm --import https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPM-GPG-KEY-cloudera # CentOS sudo apt-key adv --fetch-keys https://archive.cloudera.com/cm6/6.3.1/ubuntu1804/apt/archive.key # Ubuntu
步骤2:安装Cloudera Manager Server
# 主节点执行 sudo yum install cloudera-manager-server -y # CentOS sudo apt-get install cloudera-manager-server -y # Ubuntu # 初始化数据库(需提前安装MySQL/PG) sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm scm your_password
步骤3:启动服务
sudo systemctl start cloudera-scm-server sudo systemctl enable cloudera-scm-server # 检查启动状态(等待5分钟) tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log # 出现"Started Jetty server"即成功
安装CDH集群
步骤1:访问Web界面
- 浏览器打开:
http://<主节点IP>:7180
- 使用默认账号登录:
admin/admin
步骤2:集群配置向导
-
选择版本:
- 选择”Cloudera Enterprise Trial” → 勾选
CDH 6.x
(图:选择CDH版本)
- 选择”Cloudera Enterprise Trial” → 勾选
-
添加主机:
- 输入所有节点IP(每行一个)
- 上传主节点SSH私钥(默认路径
/root/.ssh/id_rsa
)
-
安装Parcel:
- 自动下载CDH parcel(约需30分钟)
- 若下载慢,可手动下载后放入
/opt/cloudera/parcel-repo
-
服务分配:
- 主节点部署HDFS NameNode、YARN ResourceManager
- 工作节点部署DataNode、NodeManager
- 建议独立节点部署ZooKeeper、Hive Metastore
步骤3:关键配置项
服务 | 配置项 | 推荐值 |
---|---|---|
HDFS | dfs.datanode.du.reserved | 预留20%磁盘空间 |
YARN | yarn.nodemanager.resource.memory-mb | 物理内存的80% |
Hive | hive.metastore.uris | thrift://<主节点IP>:9083 |
验证安装
- 集群健康检查:
# 命令行验证HDFS sudo -u hdfs hdfs dfs -mkdir /test sudo -u hdfs hdfs dfs -put /etc/hosts /test
- Web控制台检查:
- 访问
http://<主节点IP>:7180
→ 所有服务显示绿色状态 - HDFS Web UI:
http://<主节点IP>:9870
- 访问
常见问题解决
- Parcel下载失败:
- 手动下载后执行:
sudo chown cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo/* sudo systemctl restart cloudera-scm-server
- 手动下载后执行:
- 主机检查报错:
- 若提示”IPv6未禁用”:
echo "net.ipv6.conf.all.disable_ipv6=1" >> /etc/sysctl.conf sysctl -p
- 若提示”IPv6未禁用”:
- Hive启动失败:
- 检查MySQL驱动:将
mysql-connector-java.jar
放入/usr/share/java/
- 检查MySQL驱动:将
安全与优化建议
- 启用Kerberos认证:
控制台 → 管理 → 安全 → 启用Kerberos
- 配置监控告警:
设置邮件/Slack通知阈值(CPU>90%持续5分钟)
- 备份策略:
- 使用HDFS Snapshot:
hdfs dfsadmin -allowSnapshot /data
- 定期导出Hive元数据:
mysqldump -uroot hive_metastore > metastore_backup.sql
- 使用HDFS Snapshot:
引用说明
本文参考Cloudera官方文档6.3版本,安装包源文件均来自Cloudera Archive,关键配置项依据生产环境最佳实践,详见:
- Cloudera安装指南
- Hadoop调优手册
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/4343.html