目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)

 

1 什么是CDH,ambari?

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。

CDH简介 

  • Cloudera's Distribution, including Apache Hadoop
  • 是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
  • 提供了Hadoop的核心
    – 可扩展存储
    – 分布式计算
  • 基于Web的用户界面

    

 

CDH的优点  

  • 版本划分清晰
  • 版本更新速度快
  • 支持Kerberos安全认证
  • 文档清晰
  • 支持多种安装方式(Cloudera Manager方式

 

2  为什么需要他们

  • 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等
  • 只给你一天时间,完成以上工作?
  • 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?

  • 新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?

大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)

   手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切当设计多个组件时,用户须自己解决组件间版本兼容问题。

   工具部署呢,比如Ambari或Cloudera Manger。(当前两大最主流的集群管理工具,前者是Hortonworks公司,后者是Cloudera公司)使用工具来,可以说是一键操作,难点都在工具Ambari或Cloudera Manger本身部署上。

 

 

             手工方式                 工具方式

难易度        难,几乎不可能成功              简单,易行

兼容性        自己解决组件兼容性问题            自动安装兼容组件

组件支持数      支持全部组件                 支持常用组件

优点         对组件和集群管理深刻              简单、容易、可行

缺点         太复杂,不可能成功              屏蔽太多细节,妨碍对组件理解

 

 

 

工具名                  市场占有率    所属机构     开源性   社区支持性    易用性、稳定性      

Cloudera Manger              高                   Cloudera        商用         不支持                易用、稳定            

Ambari             较高                 Hortonwork     开源     支持         较易用、较稳定     

 

 

 

 

 

 

CDH和Ambari相互比较

出版商:

hortonworks研发了Ambari和hdp的大数据分析集成平台
cloudera研发了cloudera manger和cdh大数据分析集成平台
稳定性:

cloudera相对来说比较稳定
ambari相对来说不稳定(页面打开速度慢)
资源消耗:

cloudera manager的server端Xmx是2G,agent是1G,但是有host monitor和service monitor总共大概1G
ambari的server端Xmx是2G,metric的ams和hbase的env大概也就是2G
集群重启:

cloudera支持滚动重启(hdfs需要设计成ha,才能滚动重启)
ambari支持滚动重启(hdfs需要设计成ha,才能滚动重启)
集群升级(一般来讲不要轻易升级集群):

cloudera不支持滚动升级服务
ambari支持滚动升级服务(这个是ambari的优点,hdfs必须是ha)
二次开发:

cloudera不支持
ambari支持
服务版本:

cloudera较老
ambari较新
服务集成性:

cloudera较弱
ambari较强,支持es、redis、presto、kylin等
体验效果:

cloudera好
ambari相对差
安装过程:

cloudera复杂
ambari简单
邮件报警:

cloudera支持不好
ambari支持很好
安装包:

cloudera是parcel包
ambari是rpm包
总结:

不要轻易升级组件版本

如果对集成性要求高,稳定性相对弱点的,可以选择ambari

如果对稳定性要求高,集成性相对弱点的,可以选择cloudera

 

 

 

 

 

 


 

 

 

 

 

 

   

Logo

「智能机器人开发者大赛」官方平台,致力于为开发者和参赛选手提供赛事技术指导、行业标准解读及团队实战案例解析;聚焦智能机器人开发全栈技术闭环,助力开发者攻克技术瓶颈,促进软硬件集成、场景应用及商业化落地的深度研讨。 加入智能机器人开发者社区iRobot Developer,与全球极客并肩突破技术边界,定义机器人开发的未来范式!

更多推荐