代码之家 › 专栏 › 技术社区 › Sergej Andrejev

创建Spark数据帧时JSC为空

pyspark

Sergej Andrejev · 技术社区 · 6 年前

我在努力学习火花,所以不要苛刻地评判。我有以下问题。我可以运行类似这样的spark基本示例

import os
os.environ['PYSPARK_PYTHON'] = '/g/scb/patil/andrejev/python36/bin/python3'
import random
from pyspark import SparkConf, SparkContext
from pyspark.sql.types import *
from pyspark.sql import *
sc.stop()
conf = SparkConf().setAppName('').setMaster('spark://remotehost:7789').setSparkHome('/path/to/spark-2.3.0-bin-hadoop2.7/') 
sc = SparkContext(conf=conf) 

num_samples = 100
def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)

但是当我创建数据帧时,我有一个错误,即jsc为空

eDF = sqlContext.createDataFrame([Row(a=1, intlist=[1,2,3], mapfield={"a": "b"})])  
/usr/local/spark/python/pyspark/traceback_utils.py in __enter__(self)
     70     def __enter__(self):
     71         if SCCallSiteSync._spark_stack_depth == 0:
---> 72             self._context._jsc.setCallSite(self._call_site)
     73         SCCa._spark_stack_depth += 1

以下是在本地计算机上设置的环境变量

SPARK_HOME': '/usr/local/spark/    
PYSPARK_DRIVER_PYTHON: '/usr/bin/python3'
PYSPARK_DRIVER_PYTHON_OPTS: 'notebook'
PYSPARK_PYTHON: '/g/scb/patil/andrejev/python36/bin/python3'
PATH': '...:/usr/lib/jvm/java-8-oracle/jre/bin:/usr/local/hadoop/bin:/usr/local/hadoop/sbin:/usr/local/spark/bin'

在远程机器上

PYSPARK_PYTHON=/g/scb/patil/andrejev/python36/bin/python3
PYSPARK_DIRVER_PYTHON=/g/scb/patil/andrejev/python36/bin/python3

1 回复 | 直到 6 年前

Sergej Andrejev 6 年前

最后,我发现我有两个会话(一个是默认的,另一个是我创建的)同时运行。我明确地结束了使用我的会话来创建数据帧。

sess = SparkSession(sc)
freq_signal = sess.createDataFrame([Row(a=1, intlist=[1,2,3], mapfield={"a": "b"})])

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前