当前位置:   article > 正文

Spark On YARN 环境搭建_spark on yarn 7077端口

spark on yarn 7077端口

目录

说明:

1:配置spark-env.sh文件

2:修改hadoop里面yarn-site.xml文件

3:配置依赖spark jar包

4:关闭hadoop,spark

5:分发spark-defaults.conf文件

6:启动hadoop spark

7:连接到YARN中

​编辑

8:提交程序到yarn上


说明:

    基于前面Spark Local环境部署Spark StandAlone环境部署Spark StandAlone HA 环境搭建

一般我们都是用Spark On YARN跑代码,所有说王炸都在后面

1:配置spark-env.sh文件

  1. cd /export/spark/conf
  2. vim spark-env.sh
  1. #设置JAVA安装目录
  2. JAVA_HOME=/export/jdk
  3. #HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
  4. HADOOP_CONF_DIR=/export/hadoop/etc/hadoop
  5. YARN_CONF_DIR=/export/hadoop/etc/hadoop
  6. #export SPARK_MASTER_HOST=master
  7. # 告知sparkmaster的通讯端口
  8. export SPARK_MASTER_PORT=7077
  9. # 告知spark master的 webui端口
  10. SPARK_MASTER_WEBUI_PORT=8080
  11. # worker cpu可用核数
  12. SPARK_WORKER_CORES=1
  13. # worker可用内存
  14. SPARK_WORKER_MEMORY=1g
  15. # worker的工作通讯地址
  16. SPARK_WORKER_PORT=7078
  17. # worker的 webui地址
  18. SPARK_WORKER_WEBUI_PORT=8081
  19. ## 设置历史服务器
  20. # 配置的意思是 将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
  21. SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://master:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"
  22. SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/spark-ha"

2:修改hadoop里面yarn-site.xml文件

vim /export/hadoop/etc/hadoop/yarn-site.xml
  1. <configuration>
  2. <!-- 配置yarn主节点的位置 -->
  3. <property>
  4. <name>yarn.resourcemanager.hostname</name>
  5. <value>master</value>
  6. </property>
  7. <property>
  8. <name>yarn.nodemanager.aux-services</name>
  9. <value>mapreduce_shuffle</value>
  10. </property>
  11. <!-- 设置yarn集群的内存分配方案 -->
  12. <property>
  13. <name>yarn.nodemanager.resource.memory-mb</name>
  14. <value>20480</value>
  15. </property>
  16. <property>
  17. <name>yarn.scheduler.minimum-allocation-mb</name>
  18. <value>2048</value>
  19. </property>
  20. <property>
  21. <name>yarn.nodemanager.vmem-pmem-ratio</name>
  22. <value>2.1</value>
  23. </property>
  24. <!-- 开启日志聚合功能 -->
  25. <property>
  26. <name>yarn.log-aggregation-enable</name>
  27. <value>true</value>
  28. </property>
  29. <!-- 设置聚合日志在hdfs上的保存时间 -->
  30. <property>
  31. <name>yarn.log-aggregation.retain-seconds</name>
  32. <value>604800</value>
  33. </property>
  34. <!-- 设置yarn历史服务器地址 -->
  35. <property>
  36. <name>yarn.log.server.url</name>
  37. <value>master:19888/jobhistory/logs</value>
  38. </property>
  39. <!-- 关闭yarn内存检查 -->
  40. <property>
  41. <name>yarn.nodemanager.pmem-check-enabled</name>
  42. <value>false</value>
  43. </property>
  44. <property>
  45. <name>yarn.nodemanager.vmem-check-enabled</name>
  46. <value>false</value>
  47. </property>
  48. </configuration>

3:配置依赖spark jar包

  1. hadoop fs -mkdir -p /spark/jars/
  2. hadoop fs -put /export/spark/jars/* /spark/jars/
  1. cd /export/spark/conf
  2. vim spark-defaults.conf
spark.yarn.jars  hdfs://master:8020/spark/jars/*

4:关闭hadoop,spark

  1. stop-all.sh
  2. /export/spark/sbin/stop-all.sh

5:分发spark-defaults.conf文件

  1. cd /export/spark/conf
  2. scp -r spark-defaults.conf slave1:/export/spark/conf
  3. scp -r spark-defaults.conf slave2:/export/spark/conf

6:启动hadoop spark

  1. start-all.sh
  2. /export/spark/sbin/start-all.sh

7:连接到YARN中

  1. cd /export/spark
  2. bin/pyspark --master yarn
sc.parallelize([1,23,4,45,65,6,7]).map(lambda x: x*10).collect()

8:提交程序到yarn上

  1. cd /export/spark
  2. bin/spark-submit --master yarn /export/spark/examples/src/main/python/pi.py 100

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/838865
推荐阅读
相关标签
  

闽ICP备14008679号