百科狗-知识改变命运!
--

Python中使用K-means算法

是丫丫呀1年前 (2023-11-19)阅读数 42#技术干货
文章标签算法

python中使用K-means算法

k-means是机器学习中最常用的聚类算法,关于k-means算法的数学原理、算法、伪码等已有相当丰富的文献,在此不再赘述。

1、调用以下库

importnumpyasnp#用于抽样和生成随机数

fromsklearn.clusterimportKMeans#sklearn自带的Kmeans算法,用于严重本文算法结果是否正确

Python中使用K-means算法

importmatplotlib.pyplotasplt#结果可视化

importsys#需要用到sys.exit()函数

若不需要验证聚类结果是否可以不使用Sklearn库。

2、生成用于训练的随机数据

np.set_printoptions(suppress=True)#令numpy的结果不以科学计数法的方式输出

Data=np.array([[1.0,2.0],[1.5,1.8],[3,4],[6,8],[8,8],[1,0.6],

[9,11],[7,10]])#你也可以通过抽样的方式来更快的获得测试数据

3、定义用于选择随机初始点和簇数(k)的函数

defK_means(data,k):

globalMean

mean=[]

a=np.max(data[:,0])

b=np.min(data[:,0])

c=np.max(data[:,1])

d=np.min(data[:,1])

foriinrange(k):

x=np.random.uniform(a,b,1)

#此处返回array

y=np.random.uniform(c,d,1)#此处返回array

mean.append([float(x),float(y)])

Mean=np.array(mean)

returnMean

在上面的代码中,为了限定初始点(x,y)的位置不会超出样本点的范围,因此均匀抽样的上下限是指训练数据(a,b)和(c,d)的最小横距。

4、定义可视化函数,绘制测试数据散点图

defvision(data,cell):

plt.figure(figsize=(12,6))

ax1=plt.subplot(121)

ax1.scatter(Data[:,0],Data[:,1])#原始数据散点图

ax1.scatter(point[:,0],point[:,0])#同时将随机选取的初始点表示出来

plt.xlabel("x")

plt.ylabel("y")

plt.title("scatterof"+"rural"+"data")

ax2=plt.subplot(122)

ax2.scatter(Data[:,0],Data[:,1])#原始数据散点图

ax2.scatter(data[:,0],data[:,1])#经过迭代后最终确定的聚类点

plt.xlabel("x")

plt.ylabel("y")

plt.title("scatterof"+cell+"data")

plt.show()

聚类结果的可视化对于判断聚类结果的准确性至关重要。

5、定义迭代过程,通过不断计算各个样本对聚类点的欧式聚类,来不断更新聚类点

defiteration(Data,point):

A=[]

B=[]

foriinrange(len(Data)):

d1=np.sqrt(sum(pow(Data[i]-point[0],2)))

d2=np.sqrt(sum(pow(Data[i]-point[1],2)))

ifd1>d2:

A.append(list(Data[i]))

else:

B.append(list(Data[i]))

iflen(A)==len(Data)orlen(B)==len(Data):

print("初始化错误")

sys.exit(0)

new_x1=np.mean(np.array(A)[:,0])

new_y1=np.mean(np.array(A)[:,1])

new_x2=np.mean(np.array(B)[:,0])

new_y2=np.mean(np.array(B)[:,1])

new_point=np.array([[new_x1,new_y1],[new_x2,new_y2]])

returnnew_point

注意,上段代码中加入了一个if语句

iflen(A)==len(Data)orlen(B)==len(Data):

print("初始化错误")

sys.exit(0)

由于初始点是随机产生的,所以这个条件语句是非常必要的,因此有可能所有的样本点都只接近一个聚类中心而远离另一个聚类中心,这样就不能形成两个聚类中心,程序将会报错,因此我们需要排除出现这种情况的可能性。一旦所有样本点都接近一个聚类中心时令程序停止。

以上就是Python中使用K-means算法,希望能对大家有所帮助!更多Python学习教程请关注IT培训机构:开发教育。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)