代码之家 › 专栏 › 技术社区 › lugger1

AWS JupyterHub pyspark笔记本使用熊猫模块

jupyterhub pyspark apache-spark docker amazon-web-services

lugger1 · 技术社区 · 6 年前

我有一个安装了JupyterHub的docker容器,运行在AWS集群上,如下所述 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-jupyterhub.html . 它有python3内核、pyspark3、PySpark、SparkR和Spark内核,容器内安装了conda和许多其他Python包,但没有Spark。问题是,当我运行pyspark或pyspark3内核时,它会连接到安装在主节点(docker容器外部)上的spark,并且所有内部模块都不再可用于此笔记本(尽管它们对python内核可见,但在这种情况下spark不可见)。

所以问题是如何使安装在docker中的模块对pyspark/pyspark3笔记本可用和可见?我想我的设置中有点遗漏了。

我正在寻找一种方法来使用docker内部安装的模块,并在一个笔记本上安装spark。

到目前为止,我只能得到一个或另一个。

1 回复 | 直到 6 年前

lugger1 6 年前

我在这里找到了一半答案 https://blog.chezo.uno/livy-jupyter-notebook-sparkmagic-powerful-easy-notebook-for-data-scientist-a8b72345ea2d https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-jupyter-notebook-kernels . 秘密是在计算单元中使用%%local magic,它允许我们访问安装的python模块本地 (在docker容器中)。现在我只是不知道如何持久化在笔记本的“pyspark部分”创建的数据帧,所以它在“local”部分可用。

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前