当前位置:   article > 正文

Windows上配置Python+Spark开发环境_windows pycharm spark3.1.2本地开发搭建

windows pycharm spark3.1.2本地开发搭建

1.软件准备:

下载资源合集:https://download.csdn.net/download/qq_33283652/11060712

https://download.csdn.net/download/qq_33283652/11060746 

2.安装java,pycharm,python

3.安装spark

3.1下载并解压

3.2 配置环境变量

  • 系统变量新增SPARK_HOME,值为安装路径
  • ath,新增两个值:%SPARK_HOME%\bin,%SPARK_HOME%\sbin

3.3复制模板并修改conf/log4j.properties日志文件 

3.3 测试spark 

3.4 安装pyspark

将spark目录下的 ---> python目录下的 --> pyspark文件夹 复制粘贴到 python目录下的 -- >lib 目录下的 --> site-packges里面 

安装py4j   pip install py4j ipython 

修改spark/bin/pyspark2.cmd   

set PYSPARK_DRIVER_PYTHON=ipython

4.安装hadoop

4.1下载并解压

4.2配置环境变量

  • 新建系统变量HADOOP_HOME,值为Hadoop安装路径
  • 配置系统变量PATH,添加%HADOOP_HOME%\bin

4.3 将bin-master中的文件覆盖hadoop/bin下的文件 

5.pycharm新建一个spark项目

5.1 wordcount代码演示 

  1. from pyspark import SparkContext,SparkConf
  2. if __name__ == '__main__':
  3. conf = SparkConf().setMaster("local").setAppName("wordcount")
  4. sc = SparkContext(conf=conf)
  5. lines = sc.textFile("./word.txt")
  6. words = lines.flatMap(lambda line: line.spilt(" "))
  7. pairwords = words.map(lambda word: (word, 1))
  8. result = pairwords.reduceByKey(lambda v1, v2: v1 + v2)
  9. result.foreach(lambda one: print(one))
  10. sc.stop()

5.2 在edit configuration 修改路径

5.3 运行结果

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/744960
推荐阅读
相关标签
  

闽ICP备14008679号