当前位置: article > 正文

spark sql读取hive数据直接写入doris，离线批量导入_java开发spark把hive数据导出到doris

作者：Li_阴宅 | 2024-08-13 04:42:29

踩

java开发spark把hive数据导出到doris

先简单的贴贴代码，后面会完善一下。

一，spark sql 读取hive表

这里通过catalog查询表的字段信息，然后查询出来的字段colStr 要给下面的doris使用。

注意：我这里是直接拿取的hive表所有的字段。

二，spark自定义输出

这里就是简单封装了一下

实现的效果：

三，通过stream load方式数据写入doris

循环遍历DataFrame之后写入到doris里面：


 val dorisStreamLoader = new DorisStreamLoad("192.168.5.xx:8040", "example_db", "assuer_order_test", "root", "root")
      val cumsArrays = colStr.split(",")
      val fieldDelimiter: String = "\t"
      val lineDelimiter: String = "\n"
      val NULL_VALUE: String = "\\N"
      val maxRowCount = 5000
      val maxRetryTimes = 3
      data.rdd.foreachPartition(partition => {
        val buffer = ListBuffer[String]()
 
        var jsonArrays = new JSONArray()
        partition.foreach(f = row => {
          //            val value: StringJoiner = new StringJoiner(fieldDelimiter)
          // create one row string
          val json = new JSONObject()
          for (i <- 0 until row.size) {
 
            val field = row.get(i)
            val fieldName = cumsArrays(i)
            if (field == null) {
              //                value.add(NULL_VALUE)
              json.put(fieldName, NULL_VALUE)
            } else {
              //                value.add(field.toString)
              json.put(fieldName, field.toString)
            }
 
 
          }
          jsonArrays.add(json)
          // add one row string to

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/973218