Hadoop和Spark集群搭建的大致流程

【Hadoop】

1.首先，准备好Hadoop安装包和JDK的安装与配置

2.建立各个机器之间的ssh信任关系，即互信

3.修改hadoop配置文件

【core、hdfs、yarn、mapred】

默认配置文件：core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml

特定配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

特定配置文件会覆盖默认的配置项

【core-site.xml】

是整个Hadoop通用的配置，集群的每个主机都存在。

分布式文件系统名字、临时目录以及其他与网络配置相关的参数

【hdfs-site.xml】

配置HDFS系统的运行时属性和各个数据节点上文件的物理存储相关的属性

主-辅节点存放元数据文件表(fsimage文件)的目录

主-辅节点存储元数据事务处理文件(edits文件)的目录

默认数据块大小

数据块备份数量

名称节点和数据节点通信的服务器线程数，默认为10

【mapred-site.xml】

保护了与CPU、内存、磁盘I/O和网络相关的参数

任务是本地作业执行器还是提交到yarn集群

运行Map或Reduce任务的JVM堆大小

运行Map和Reduce任务的容器的内存大小

存储中间数据文件的本地目录

作业跟踪器(YARN)的服务器进程数量

任务重试的最大次数

【yarn-site.xml】

配置由YARN框架提供的通用服务守护进程的属性，比如资源管理器和节点管理器

运行资源管理器的主机名以及端口号

启动容器的最大最小内存量和虚拟CPU内核数

【Spark】

在有JDK和Hadoop的基础上，安装Scala

修改配置文件

【spark属性、环境变量、日志配置】

属性可以直接在sparkconf上配置给sparkcontext

spark shell和spark-submit工具支持两种方式动态加载配置，第一种是命令行选项，第二种运行./bin/spark-submit实现

当然spark-submit也会在conf/spark-defaults.conf中读取配置选项

driver程序运行时需要的cpu内核数和内存数

每个executor进程使用的内存数

需要大数据Hadoop、spark等技术的相关资料可以在评论区留言，小编在看到后会在第一时间回复大家

查看原文 >>

Hadoop和Spark集群搭建的大致流程

热门新闻

周热门

Hadoop和Spark集群搭建的大致流程

数据产品指北：数据平台

基石科技控股(08391.HK)拟成立合营以在泰国建立电动车充电站网络

Clean Spark大涨超17% 小摩予该股“增持”评级

spark是怎么从RDD升级到DataFrame的？

Spark实践｜物化视图在 SparkSQL 中的实践

Spark 3.0 新特性抢先看

如何将 Spark 的 shuffle 移植到自己业务

Spark原理｜Spark SQL 自适应执行优化引擎

特征工程：特征获取、特征规范和特征存储

吐血整理 | HDFS运维问题大全

HQL练习某视频网站的常规TopN指标分析

HiveQL查询连续三天有销售记录的店铺

Apache Hudi：剑指数据湖的增量处理框架

推荐升级四部曲之 CDH 手动升级，奔涌吧！

实战 | 数据湖中的流式数据摄取之DeltaSteamer

热门新闻

周热门