Spark实战:高阶函数应用

更新时间：2025-10-15 理论教育 版权反馈

【摘要】：我们在Spark中分析一个WordCount词频统计的例子，对HDFS中的README.txt文件进行单词数统计。Linux操作系统中启动Hadoop集群，然后启动Spark集群。在spark－shell系统的Scala解释器交互式shell中使用高阶函数来进行词频统计。Scala高阶函数在Spark中的使用示例。

我们在Spark中分析一个WordCount词频统计的例子，对HDFS中的README.txt文件进行单词数统计。Linux操作系统中启动Hadoop集群，然后启动Spark集群。在spark－shell系统的Scala解释器交互式shell中使用高阶函数来进行词频统计。

1.HDFS文件系统准备文本文件从虚拟机Linux系统上传到HadoopHDFS文件系统的文本文件README.txt，可以通过hdfs：／／master：9000／README.txt方式查看，提供Spark词频分析使用。

输入＃hadoop fs－cat_hdfs：／／master：9000／README.txt，如下：

在HDFS文件系统中查看README.txt文件。

2.从Hadoop HDFS中读取文件在spark－shell系统的Scala交互式命令行中，定义一个Spark的RDD集，用于读取HDFS文件系统的文本文件，输入：

读取README.txt文本文件以后返回结果是MapPartitionsRDD。(https://www.daowen.com)

3.在Spark中进行WordCount词频统计在spark－shell系统的Scala交互式命令行中，通过rdd1.flatMap（_.split（＂＂））.map（（_，1））.reduceByKey（_＋_）.collect一行Scala语句进行词频统计，然后定义一个val变量result，接收词频统计分析的结果。

这里使用到了Scala的高阶函数，如例3－21所示。

【例3－21】Scala高阶函数在Spark中的使用示例。

Spark通过rdd1.flatmap（_.split（＂＂））.map（（_，1））.reduceByKey（_＋_）.collect这行语句轻松进行了词频统计分析，计算出的result结果如下所示：

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

Spark实战:高阶函数应用

Scala语言基础与开发实战：高阶函数实例分

高阶函数在 Scala 中的应用及常用函数

Scala语言基础与开发实战：偏应用函数实例

函数-Office高级应用-嵌套函数

Akka框架在Spark中的应用

年金终值函数及应用

Scala语言基础与开发实战-Curring

利息函数及其应用

相关推荐