pyspark之Structured Streaming结果保存到Mysql数据库_structuredstreaming输出到mysql

作者：不正经 | 2024-06-12 22:39:55

踩

structuredstreaming输出到mysql


#针对输入格式如下的txt文件-------------->姓名,科目,成绩
from pyspark.sql import SparkSession,DataFrame
from pyspark.sql.functions import split
 
#配置mysql信息
PROP = {} 
PROP['driver'] = 'com.mysql.jdbc.Driver'
PROP['user'] = 'root'
PROP['password'] = 'password'
URL = 'jdbc:mysql://localhost:3306/spark'
TABLE = 'test'
def test_insert_mysql(df:DataFrame,batch): #表test  name,subject,score
    df.write.jdbc(url=URL,table=TABLE,properties=PROP,mode='append')
 
if __name__ == '__main__':
    spark = SparkSession.builder.getOrCreate()
    lines = spark.readStream.text(path='/opt/tmp/',wholetext=False)#spark针对一个文件只读取一次
    stu_info = lines.select(split(lines.value,",").alias("info"))
    stu = stu_info.select(stu_info['info'][0].alias('name'),stu_info['info'][1].alias('subject'),stu_info['info'].alias('score'))
    #此处可以创建表测试,创建表可以进行复杂sql计算或者通过.select/.groupBy等方法计算
    """
    stu.createOrReplaceTempView("student")
    result = spark.sql("select * from student")
    query = result.writeStream.outputMode('update').foreachBatch(test_insert_mysql).trigger(processingTime="8 seconds").start()
    query.awaitTermination()
    """
    query = stu.writeStream.outputMode('update').foreachBatch(test_insert_mysql).trigger(processingTime="8 seconds").start()
    query.awaitTermination()
#备注：outputMode三种:complete:用于聚合时  update：不支持会话窗口 和append

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/709938