理论教育 Spark实战:高阶函数应用

Spark实战:高阶函数应用

更新时间:2025-01-02 理论教育 版权反馈
【摘要】:我们在Spark中分析一个WordCount词频统计的例子,对HDFS中的README.txt文件进行单词数统计。Linux操作系统中启动Hadoop集群,然后启动Spark集群。在spark-shell系统的Scala解释器交互式shell中使用高阶函数来进行词频统计。Scala高阶函数在Spark中的使用示例。

我们在Spark中分析一个WordCount词频统计的例子,对HDFS中的README.txt文件进行单词数统计。Linux操作系统中启动Hadoop集群,然后启动Spark集群。在spark-shell系统的Scala解释器交互式shell中使用高阶函数来进行词频统计。

1.HDFS文件系统准备文本文件虚拟机Linux系统上传到HadoopHDFS文件系统的文本文件README.txt,可以通过hdfs://master:9000/README.txt方式查看,提供Spark词频分析使用。

输入#hadoop fs-cat_hdfs://master:9000/README.txt,如下:

在HDFS文件系统中查看README.txt文件。

2.从Hadoop HDFS中读取文件 在spark-shell系统的Scala交互式命令行中,定义一个Spark的RDD集,用于读取HDFS文件系统的文本文件,输入:

读取README.txt文本文件以后返回结果是MapPartitionsRDD。(www.daowen.com)

3.在Spark中进行WordCount词频统计 在spark-shell系统的Scala交互式命令行中,通过rdd1.flatMap(_.split("")).map((_,1)).reduceByKey(_+_).collect一行Scala语句进行词频统计,然后定义一个val变量result,接收词频统计分析的结果。

这里使用到了Scala的高阶函数,如例3-21所示。

【例3-21】Scala高阶函数在Spark中的使用示例。

Spark通过rdd1.flatmap(_.split("")).map((_,1)).reduceByKey(_+_).collect这行语句轻松进行了词频统计分析,计算出的result结果如下所示:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈