当前位置:   article > 正文

spark-ml 逻辑回归使用记录_sparkml model.coefficients

sparkml model.coefficients

    最近做项目需要用一下逻辑回归模型,一开始用了spark的基于RDD的mlib,写了一个版本的脚本,后来看官方文档发现mlib目前处于维护状态,主推的还是基于Dataframe的ml,于是重头开始写基于ml的模型脚本,哎,坚强地继续搬砖快哭了

    由于中间有个指标是事件类型,属于字符串类型,需要做单独处理,这里利用自带的StringIndexer函数, 主要是根据事件类型出现频次来确定数值,handleInvalid主要针对以后新出现的事件类型时候的处理方式,有error, skip和keep,具体含义可以参考官方文档的示例

  1. from pyspark.ml.feature import StringIndexer
  2. indexer=StringIndexer(inputCol='eventtype',outputCol='eventtypeIndex',handleInvalid='keep')
  3. indexed=indexer.fit(raw_data).transform(raw_data).select(...)

接下来生成标签和特征向量

  1. from pyspark.ml.linalg import Vectors
  2. data=indexed.rdd.map(lambda x:(int(x[-1]),Vectors.dense(x[:-1]))).toDF(['label','features'])

接下来做变量标准化处理

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/737086
推荐阅读
相关标签
  

闽ICP备14008679号