当前位置:   article > 正文

IDEA中运行Scala-Spark程序_idea scala本地运行

idea scala本地运行

IDEA中运行Scala-Spark程序

  • 前提条件:保证本地已经安装Spark、Hadoop、IDEA
  • 测试版本:IDEA 2020.1、spark 2.4.6 hadoop 2.7.3

Step1:安装Scala-IDEA插件

方法一:(在线安装)

打开IDEA,选择File->Setting,搜索Scala安装
搜索Scala安装

方法二:本地安装(由于下载文件在国外服务器可能存在下载速度缓慢问题)

进入IDEA-Scala插件,下载符合自己IDEA版本的插件,找到下图位置安装即可
安装插件

Step2:创建Scala项目

新建Project
新建Project

选择新建Maven项目
选择新建Maven项目
之后修改项目名称->Next->Finish

Step3: 配置Java环境

在Settings中将编译环境设置为java 8,然后apply->ok
修改java环境

Step4:修改pom.xml文件

找到pom.xml
pom.xml文件内容示例

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>org.example</groupId>
  <artifactId>test</artifactId>
  <version>1.0-SNAPSHOT</version>
  <inceptionYear>2008</inceptionYear>
  <properties>
    <scala.version>2.11.8</scala.version>
    <spark.version>2.4.6</spark.version>
    <hadoop.version>2.7.3</hadoop.version>
  </properties>
  <repositories>
    <repository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url>http://scala-tools.org/repo-releases</url>
    </repository>
  </repositories>

  <pluginRepositories>
    <pluginRepository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url>http://scala-tools.org/repo-releases</url>
    </pluginRepository>
  </pluginRepositories>
  <dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>${scala.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-mllib_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>
  </dependencies>
</project>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59

此时需要根据本地环境修改配置文件中的Spark,Scala,Hadoop版本
修改pom.xml后右键找到Maven->Reimport,等待下方进度条完成导入
在这里插入图片描述
注意:导入过程中若是出现了问题,可以到mvnrepository寻找匹配的版本

Step5:写出一个Scala-Spark程序

新建一个Scala Class
在这里插入图片描述
选择创建Object
创建Object
测试代码如下:

package org.example
import org.apache.spark.sql.SparkSession
object hello {
  def main(args: Array[String]) {
    //构建Spark对象
    val ss = SparkSession
      .builder()
      .master("local[*]")
      .appName("movie")
      .getOrCreate()
    val sc = ss.sparkContext
    val data_path = "file:/C:/Users/yeyu/Desktop/data/word.txt"
    val data = sc.textFile(data_path)
    data.map(_.split(",")).map(f => (f(0), f(1), f(2))).foreach(println(_))
  }
}

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

我在本地桌面创建了如下文本文件
文本文件
右键运行可以看到输出结果
输出结果
至此已经完成了Scala-Spark程序的本地编写和运行

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/746654
推荐阅读
相关标签
  

闽ICP备14008679号