【Hadoop】

1.首先,准备好Hadoop安装包和JDK的安装与配置

2.建立各个机器之间的ssh信任关系,即互信

3.修改hadoop配置文件

【core、hdfs、yarn、mapred】

默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml

特定配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

特定配置文件会覆盖默认的配置项

【core-site.xml】

是整个Hadoop通用的配置,集群的每个主机都存在。

分布式文件系统名字、临时目录以及其他与网络配置相关的参数

【hdfs-site.xml】

配置HDFS系统的运行时属性和各个数据节点上文件的物理存储相关的属性

主-辅节点存放元数据文件表(fsimage文件)的目录

主-辅节点存储元数据事务处理文件(edits文件)的目录

默认数据块大小

数据块备份数量

名称节点和数据节点通信的服务器线程数,默认为10

【mapred-site.xml】

保护了与CPU、内存、磁盘I/O和网络相关的参数

任务是本地作业执行器还是提交到yarn集群

运行Map或Reduce任务的JVM堆大小

运行Map和Reduce任务的容器的内存大小

存储中间数据文件的本地目录

作业跟踪器(YARN)的服务器进程数量

任务重试的最大次数

【yarn-site.xml】

配置由YARN框架提供的通用服务守护进程的属性,比如资源管理器和节点管理器

运行资源管理器的主机名以及端口号

启动容器的最大最小内存量和虚拟CPU内核数

【Spark】

在有JDK和Hadoop的基础上,安装Scala

修改配置文件

【spark属性、环境变量、日志配置】

属性可以直接在sparkconf上配置给sparkcontext

spark shell和spark-submit工具支持两种方式动态加载配置,第一种是命令行选项,第二种运行./bin/spark-submit实现

当然spark-submit也会在conf/spark-defaults.conf中读取配置选项

driver程序运行时需要的cpu内核数和内存数

每个executor进程使用的内存数

需要大数据Hadoop、spark等技术的相关资料可以在评论区留言,小编在看到后会在第一时间回复大家

查看原文 >>
相关文章