当前位置:   article > 正文

18. Spark sql  regexp_replace 及 rlike用法_sparksql replace

sparksql replace

18.  Spark sql  regexp_replace 及 rlike用法

工作中遇到了一些字符串中偶然含有 \n (软回车) \r (软空格),在写入到hive后,建Kylin cube时有报错,说明在数据清洗时,没有考虑到这一点。要在数据清洗时,去除 \n (软回车) \r (软空格)

 

当要匹配特殊的隐藏字符\n \r \t ,等回车符、制表符时,需要通过使用四个 /  进行转译。

伪代码

  1. # RDD的替换方法
  2. s.replaceAll("[\\r\\n]", "")
  3. # Spark Sql的替换方法
  4. select(regexp_replace(trim($"name"), "[\\r\\n]", "").alias("name"))
  5. #
  6. sparkSession.sql(
  7. """
  8. |select
  9. |regexp_replace(title, '\\\\r|\\\\n|\\\\b|\\\\f|\\\\t','') title
  10. |from tableName
  11. """)

rlike用法 

https://stackoverflow.com/questions/41756751/using-rlike-in-org-apache-spark-sql-column

https://mungingdata.com/apache-spark/advanced-string-matching-with-rlike/

 

 

此贴来自汇总贴的子问题,只是为了方便查询。

总贴请看置顶帖:

pyspark及Spark报错问题汇总及某些函数用法。

https://blog.csdn.net/qq0719/article/details/86003435

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/230943
推荐阅读
相关标签
  

闽ICP备14008679号