当前位置:   article > 正文

机器学习-数据理解分析_机器学习数据分析

机器学习数据分析

数据集描述了我们要解决的问题,使用数据集训练模型,首先要对数据集的数据有个清楚的认识,对数据集进行理解分析,本文主要讲述使用pandas进行数据分析

1.Pandas介绍

  • Pandas是⽤于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计处理,可视化等功能
  • DataFrameSeriesPandas最基本的两种数据结构
  • DataFrame⽤来处理结构化数据(SQL数据表,Excel表格)
  • Series⽤来处理单列数据,也可以把DataFrame看作由Series对象组成的字典或集合

2.载入数据

使用pandas的read_csv载入csv数据集

  1. from pandas import read_csv
  2. #使用 Pandas 导入 csv 数据
  3. filename ='./dataset/iris.csv'
  4. #花萼长度、花萼宽度、花瓣长度、花瓣宽度
  5. names = ['sepal_length','sepal_width','petal_length','petal_width','class']
  6. data = read_csv(filename, names=names)

本文使用的数据集文件中没有列表,列之间分隔符为,使用read_csv函数返回DataFrame对象,即data是一个DataFrame对象

3.数据清理

  • 统计每列特征空值个数
data.isnull().sum()

输出结果:

  1. sepal_length 0
  2. sepal_width 0
  3. petal_length 0
  4. petal_width 0
  5. class 0
  6. dtype: int64
  • 缺失值处理
    • 删除缺失值:删除缺失值会损失信息,并不推荐删除,当缺失数据占⽐较低的时候,可以尝试使⽤删除缺失值
      • 按⾏删除:删除包含缺失值的记录,
      • 按列删除:当⼀列包含了很多缺失值的时候(⽐如超过80%
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号