赞
踩
聚类算法属于无监督学习,它将相似的对象归到同一个簇中。K-Means算法是聚类算法中最常用到算法;
点
点
图中红线代表曼哈顿距离,绿线代表欧式距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。
曼哈顿距离:两点在南北方向上的距离加上在东西方向上的距离。
点
两个向量 A 和 B,其余弦距离(即两向量夹角的余弦)由点积和向量长度给出,计算公式如下:
输入:样本集{
聚类簇数k
输出:簇划C={
SSE(Sum of Square Error, 误差平方和),SSE值越小表示数据点越接近于它们的质心,聚类效果也越好。
完整版脚本,直接运行即可
import
运行结果
import
运行结果
优点:容易实现
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢
适用数据类型:数值型数据
如果没有数据,也可以通过python现有库模拟产生数据,代码如下
from
用模拟生成的数据替换上面代码中的x和k,则调算法包和用原理实现的运行效果分别如下
用封装好的算法和用原理实现的算法相比,从时间上来看,封装好的算法要比按原理实现的速度快,后续探索到其他方面再补充。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。