代码之家 › 专栏 › 技术社区 › Mohamed Seif

使用filstream的Spark streaming文字计数不会打印结果[重复]

filestream spark-streaming apache-spark scala

Mohamed Seif · 技术社区 · 7 年前

 import org.apache.spark.SparkConf
 import org.apache.spark.streaming._
 import org.apache.spark.streaming.StreamingContext

 object TwitterHashtagStreaming {

 def main(args: Array[String]) : Unit = {

val conf = new SparkConf().setAppName("TwitterHashtagStreaming").setMaster("local[2]").set("spark.executor.memory","1g");

val streamingC = new StreamingContext(conf,Seconds(5))

val streamLines = streamingC.textFileStream("file:///home/cloudera/Desktop/wordstream")
val words = streamLines.flatMap(_.split(" "))
val counts = words.map(word => (word, 1)).reduceByKey(_ + _)

 counts.print()

 streamingC.start()
 streamingC.awaitTermination()
}

 }

1 回复 | 直到 7 年前

ashburshui 7 年前

请仔细参考 document :

def textFileStream(directory: String): DStream[String]

创建用于监视Hadoop兼容文件系统的输入流值为Text,输入格式为TextInputFormat)。文件必须是通过从另一个目录“移动”它们来写入监视目录忽略。

总之,它是一个变化检测器,您必须启动流媒体服务,然后将数据写入监视器目录。

该语义将模拟 “流概念” 网络数据包将逐渐像你的文件一样收入。

推荐文章

Mohamed Seif · 使用filstream的Spark streaming文字计数不会打印结果[重复]

7 年前

heltonbiker · 使用反应式编程写入打开文件流

7 年前

Gforse · 使用Filestream分析十六进制文件并行

7 年前

Bem · 在几分钟内将输入的字节数组流写入文件(C#)

7 年前

user1234567 · Adobe Air FileStream将jpg从一个目录复制到另一个目录

8 年前

OpticalMagician · C++读取字符串,后跟两个双精度

8 年前

Perry · 为什么我无法使用此FileStream获取任何数据

8 年前

Hyun · C#我想更改分配的字节

9 年前

j76goatboy · C#在隔离状态下创建和打开文件引发IOException

9 年前

KDX2 · 运行文件://来自http://localhost/

9 年前