赞
踩
里面有各种依赖的关系
第二种方法:下载:在spark官网的最后一行蓝色,有老版本下载的链接
文件有两个:
Spark runs on Java 8/11, Scala 2.12/2.13, Python 3.6+ and R 3.5+. Python 3.6 support is deprecated as of Spark 3.2.0. Java 8 prior to version 8u201 support is deprecated as of Spark 3.2.0. For the Scala API, Spark 3.2.1 uses Scala 2.12. You will need to use a compatible Scala version (2.12.x).
如果正常提示Java有环境的话java 环境配置完成
官网下载hadoop(下载带bin的、binary,大概200M)
写入到没有空格的文件夹里面
选择winutils支持的hadoop和Spark版本
写入HADOOP_HOME为hadoop根路径
path写入 %HADOOP%/bin和%HADOOP%/sbin(可选)
下载winutils。替换bin(这个文件很小)
cmd执行set PATH=C
退出cmd以后执行:
当有5个进程同时启动,hadoop配置完成
如果有结果配置完成
报错信息:
_JAVA_OPTIONS: -Xmx800M
# 必须预先配置findspark
import findspark
findspark.init()
import pyspark
from pyspark.sql import SparkSession
SparkSession.Builder.appName('aaa').getOrCreate()
# 自己找一个文件试试
df = sc.read.csv(r'F:\1.csv', encoding='GBK')
df.show()
执行以后如果成功没有报错,说明正确
提示:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。