您的当前位置：首页正文

Spark 键值对RDD的操作

2024-11-11 来源：个人技术集锦

键值对RDD（Pair RDD）是指每个RDD元素都是（key，value）键值对类型，是一种常见的RDD类型，可以应用于很多的应用场景。

一、键值对RDD的创建

键值对RDD的创建主要有两种方式：
（1）从文件中加载生成RDD；
（2）通过并行集合（数组）创建RDD。

1，从文件中加载生成RDD

首先使用textFile()方法从文件中加载数据，然后，使用map()函数转换得到相应的键值对RDD。

scala> val  lines = sc.textFile("file:///usr/local/spark/mycode/pairrdd/word.txt")
lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/pairrdd/ word.txtMapPartitionsRDD[1] at textFile at <console>:27 
scala> val  pairRDD = lines.flatMap(line => line.split(" ")).map(word => (word,1)) pairRDD: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[3] at map at <console>:29 
scala> pairRDD.foreach(println) 
(i,1) 
(love,1) 
(hadoop,1) 
……

map(word => (word,1))函数的作用是，取出RDD中的每个元素，也就是每个单词，赋值给word，然后把word转换成(word,1)的键值对形式。

2，通过并行集合（数组）创建RDD

scala> val  list = List("Hadoop","Spark","Hive","Spark")
list: List[String] = List(Hadoop, Spark, Hive, Spark)  scala> val  rdd = sc.parallelize(list) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[11] at parallelize at <console>:29  
scala>

Spark 键值对RDD的操作

一、 键值对RDD的创建

1，从文件中加载生成RDD

2，通过并行集合（数组）创建RDD

一、键值对RDD的创建