![]() |
1
2
你用Spark标记了这个问题,所以我假设你正在尝试使用它。我建议您首先阅读此处的Spark文档,了解如何使用Spark与数据交互。 https://spark.apache.org/docs/latest/quick-start.html https://spark.apache.org/docs/latest/sql-programming-guide.html 但是,为了回答您的具体问题,在Spark中,您可以使用以下代码读取CSV文件:
您提供的路径将指向HDFS上的CSV文件或包含多个CSV文件的文件夹。此外,Spark将接受其他类型的文件系统。例如,您还可以使用“file://”访问本地文件系统,或使用“s3://”访问s3。一旦加载了数据,就会产生火花 数据帧 对象,该对象具有可与之交互的类似SQL的方法。 注意,我为separator提供了一个选项,只是为了向您展示如何操作,但它默认为“,”,所以它不是必需的。此外,如果CSV文件不包含头,则需要自己指定模式,并将头设置为false。 |
![]() |
2
0
您可以通过以下方法从HDFS读取数据:-
//此示例检查行是否为null,并随后打印每个现有行 阅读行。takeWhile(_!=null)。foreach(行=>println(行)) 也请看一下这篇文章 https://blog.matthewrathbone.com/2013/12/28/reading-data-from-hdfs-even-if-it-is-compressed 如果这回答了你的问题,请告诉我。 |
![]() |
davidzxc574 · 将字符串缩放为字符 2 年前 |
![]() |
yic_l · 什么是“!”在这个函数中是什么意思? 2 年前 |
![]() |
Jelly · Scala:用于理解递归未来 2 年前 |
![]() |
bbgghh · 在scala中连接两个列表时如何处理不匹配的键 3 年前 |
![]() |
Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用 3 年前 |
![]() |
B. Bal · 在Scala中重用类成员 3 年前 |