赞
踩
本篇文章主要是为了让大家过一遍机器学习的应用流程,希望文章中的案例可以帮助大家温习机器学习的基础知识,并学习应用机器学习解决问题的基本流程。
文章中会用到的python库:
Scikit-Learn: 最常用的机器学习算法库之一。
可以通过pip安装:
$ pip install scikit-learn
案例中使用的数据集是鸢尾花数据集,可自行导入
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data # 样本特征
y = iris.target # 样本标签
X.shape
(150, 4)
y
# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=66)
其中25%为测试集
# 样本特征标准化
std = StandardScaler()
# 通过训练样本特征进行标准化拟合并转换
X_train_standard = std.fit_transform(X_train)
X_test_standard = std.transform(X_test)
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train_standard, y_train) # 拟合
y_predict = knn.predict(X_test_standard)
print(y_predict)
sum(y_test == y_predict) / len(y_test) # 方式一
print(knn.score(X_test_standard, y_test)) # 方式二
from sklearn import datasets from sklearn.preprocessing import StandardScaler # 标准化 from sklearn.model_selection import train_test_split # 划分数据集 from sklearn.neighbors import KNeighborsClassifier # 加载鸢尾花数据集 iris = datasets.load_iris() X = iris.data # 样本特征 y = iris.target # 样本标签 # 将数据集拆分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=66) # 样本特征标准化 std = StandardScaler() # 通过训练样本特征进行标准化拟合并转换 X_train_standard = std.fit_transform(X_train) X_test_standard = std.transform(X_test) knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train_standard, y_train) # 拟合 y_predict = knn.predict(X_test_standard) print(y_predict) print(knn.score(X_test_standard, y_test))
了解KNN算法请点击:机器学习-K近邻(KNN)算法详解
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。