如何搭建Spark环境：详细教程

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：Spark 的安装需要依赖于Hadoop 集群和Scala 环境，这些已经在前面安装完成。

Spark 的安装需要依赖于Hadoop 集群和Scala 环境，这些已经在前面安装完成。

一、下载对应版本的Spark

进入下载页面http://spark.apache.org/downloads.html，由于使用的Hadoop 版本是2.6.5，因此选择基于该版本的Spark2.1.0，如图8-5 所示：

pagenumber_ebook=245,pagenumber_book=237

图8-5　Spark 下载

二、解压spark-2.2.0-bin-hadoop2.6.tgz

将下载的spark-2.2.0-bin-hadoop2.6.tgz 解压到/hadoop 目录下

tar -xvf spark-2.1.0-bin-hadoop2.6.tgz -C /hadoop/

三、进入spark 的conf 目录

1.配置slaves 文件

（1）cp slaves.template slaves

（2）其内容改为

slave1

slave2

2.配置spark-env.sh 文件

（1）cp spark-env.sh.template spark-env.sh

（2）在文件末尾增加以下内容：

export JAVA_HOME=/Java/jdk1.8.0_144

export HADOOP_HOME=/hadoop/hadoop-2.6.5

export HADOOP_CONF_DIR=/hadoop/hadoop-2.6.5/etc/hadoop

export SCALA_HOME=/hadoop/scala-2.11.0/bin

export SPARK_MASTER_IP=master

export SPARK_WORKER_MEMORY=1g

四、将spark 文件分发到salve1 和slave2 节点

scp -r /hadoop/spark-2.1.0-bin-hadoop2.6/ slave1:/hadoop/

scp -r /hadoop/spark-2.1.0-bin-hadoop2.6/ slave2:/hadoop/

五、启动Spark 分布式集群并查看信息(www.daowen.com)

1.启动Hadoop 集群

2.启动Spark 集群

由于Spark 集群的启动脚本也为start-all.sh，所以需要到Spark 的sbin 目录下执行"./start-all/sh"。

此时，在master 节点多一个Master 进程，salve1 和slave2 节点多一个worker 进程，如图8-6，8-7，8-8 所示：

pagenumber_ebook=246,pagenumber_book=238

图8-6　master jps 信息

pagenumber_ebook=246,pagenumber_book=238

图8-7　slave1 jps 信息

pagenumber_ebook=246,pagenumber_book=238

图8-8　slave2 jps 信息

可以进入Spark 集群的Web 页面，访问http://192.168.254.128:8080/，如图8-9所示：

pagenumber_ebook=246,pagenumber_book=238

图8-9　Spark Web 信息

六、测试Spark 集群

向HDFS 上传Spark 安装包下的README.txt 文件：

hdfs dfs -put /hadoop/spark-2.1.0-bin-hadoop2.6/README.md /test

进入Spark 的bin 目录下，使用"./spark-shell --master spark://master:7077"命令启动Spark shell，出现如图8-10 的Spark 欢迎界面：

pagenumber_ebook=247,pagenumber_book=239

图8-10　Spark 启动界面

执行如下命令：

val file = sc.textFile("/test/README.md")

val counts = file.count

scala> val counts = file.count

得到如图8-11 结果：

pagenumber_ebook=247,pagenumber_book=239

图8-11　文件行数统计

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关大数据技术及应用探究的文章

如何搭建Spark环境：详细教程

2025年高中生迟到检讨书如何撰写

如何撰写2025年单位员工迟到的检讨书

如何撰写2025年值日迟到的检讨书

如何撰写2025年会议迟到反思报告

2025年员工迟到的反思与检讨该如何撰写

2025年军训迟到检讨书怎么写

如何撰写2025年年度上班会议迟到检讨书

2025年会议迟到检讨书如何撰写

相关推荐