spark-ml 逻辑回归使用记录_sparkml model.coefficients

作者：繁依Fanyi0 | 2024-06-19 16:50:13

踩

sparkml model.coefficients

最近做项目需要用一下逻辑回归模型，一开始用了spark的基于RDD的mlib，写了一个版本的脚本，后来看官方文档发现mlib目前处于维护状态，主推的还是基于Dataframe的ml，于是重头开始写基于ml的模型脚本，哎，坚强地继续搬砖快哭了

由于中间有个指标是事件类型，属于字符串类型，需要做单独处理，这里利用自带的StringIndexer函数, 主要是根据事件类型出现频次来确定数值，handleInvalid主要针对以后新出现的事件类型时候的处理方式，有error, skip和keep，具体含义可以参考官方文档的示例


from pyspark.ml.feature import StringIndexer
indexer=StringIndexer(inputCol='eventtype',outputCol='eventtypeIndex',handleInvalid='keep')
indexed=indexer.fit(raw_data).transform(raw_data).select(...)

接下来生成标签和特征向量


from pyspark.ml.linalg import Vectors
data=indexed.rdd.map(lambda x:(int(x[-1]),Vectors.dense(x[:-1]))).toDF(['label','features'])

接下来做变量标准化处理

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/737086