Channel: CodeSection,代码区,数据库(综合) - CodeSec

X Mark channel Not-Safe-For-Work? cancel confirm NSFW Votes: (0 votes)

X Are you the publisher? Claim or contact us about this channel.

X 0

Showing article 320 of 6262 in channel 64873561
Channel Details:

Title: CodeSection,代码区,数据库(综合) - CodeSec
Channel Number: 64873561
Language: Chinese
Registered On: May 19, 2016, 6:27 pm
Number of Articles: 6262
Latest Snapshot: January 5, 2019, 3:53 pm
RSS URL: http://www.codesec.net/feed_10.xml
Publisher: https://www.codesec.net/feed_10.xml
Description: CodeSection,代码区,作为最早的信息安全网站,我们致力于培训电脑技术高手.网站集网络安全,系统网络,编程开发,网站建设等频道于一体,为您提供从基础到高端的信息技术学习平台
Catalog: //codesec9.rssing.com/catalog.php?indx=64873561

↧

weka_聚类分析实例演练

July 23, 2016, 4:11 am

≫ Next: Hibernate用Query删除数据表中的数据的问题（EntityManager.clear()）

≪ Previous: 源码-PL/SQL从入门到精通-第十三章-子程序-Part2

1、数据准备 2、聚类原理聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的，对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。现在我们对前面的“bank data”作聚类分析，使用最常见的K均值(K-means)算法。下面我们简单描述一下K均值聚类的步骤： 1)K均值算法首先随机的指定K个簇中心; 2)将每个实例分配到距它最近的簇中心，得到K个簇; 3)分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。 4)重复1)和2)，直到K个簇中心的位置都固定，簇的分配也固定。上述K均值算法只能处理数值型的属性，遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换，而且WEKA会自动对数值型的数据作标准化。这样得到的数据文件为“bank.arff”，含600条实例。

3、实现步骤 (1)用“Explorer”打开刚才得到的“bank.arff”(600条实例数据)。

weka_聚类分析实例演练

weka_聚类分析实例演练

weka_聚类分析实例演练

weka_聚类分析实例演练

(2)切换到“Cluster”，点击“Choose”按钮选择“SimpleKMeans”，这是WEKA中实现K均值的算法。

weka_聚类分析实例演练

(3)点击旁边的文本框，修改“numClusters”为6，说明我们希望把这600条实例聚成6类，即K=6;下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10，点击OK。

weka_聚类分析实例演练

(4)选中“Cluster Mode”的“Use training set”(使用训练集)，选择“Store clusters for visualization”(存储聚类可视化)，点击“Start”按钮。

weka_聚类分析实例演练

(5)观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键，“View in separate window”在新窗口中浏览结果。

weka_聚类分析实例演练

weka_聚类分析实例演练

3、结果分析 (1)首先我们注意到结果中有这么一行(误差平方和)： Within cluster sum of squared errors: 1604.7416693522332 这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。

weka_聚类分析实例演练

实际上如果把“seed”参数改一下，得到的这个数值就可能会不一样，例如将“seed”取200，就得到： Within cluster sum of squared errors: 1555.6241507629218

weka_聚类分析实例演练

(也许实际得到的值不一样)应该取后面这个，当然再尝试几个seed，这个数值可能会更小(该数值越小，说明同一簇实例直接的距离越小，聚类的结果也就越好。多次试验，找到该值趋于最小的值(实例容量越大，越难找)，即得到了本次实验最好的方案结果) 。

(2)接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性，簇中心就是它的均值(Mean);分类型的就是它的众数(Mode)，也就是说这个属性上取值为众数值的实例最多。对于数值型的属性，还给出了它在各个簇里的标准差(Std Devs)。

weka_聚类分析实例演练

(3)最后的“ Clustered Instances”是各个簇中实例的数目及百分比。

weka_聚类分析实例演练

(4)为了观察可视化的聚类结果，我们在左下方“Result list”列出的结果上右击，点“ Visualize cluster assignments”。

weka_聚类分析实例演练

弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标，第二行的“color”是散点图着色的依据，默认是根据不同的簇“Cluster”给实例标上不同的颜色。可以在这里点“Save”把聚类结果保存成ARFF文件。

weka_聚类分析实例演练

weka_聚类分析实例演练

在这个新的ARFF文件中，“instance_number”属性表示某实例的编号，“Cluster”属性表示聚类算法给出的该实例所在的簇。

weka_聚类分析实例演练

↧

Trending Articles

Converseen 0.12.2.5 免安裝版 - 免費圖片轉檔軟體支援HEIC轉JPG

January 22, 2025, 11:03 pm

上海异议人士黄小芹诉说主持同城聚会后的遭遇

January 7, 2013, 6:25 am

出售: Marantz SM-11 & SC-11 前後級一套

April 13, 2013, 9:53 am

李開台：新創公司發展營業秘密保護是關鍵

December 14, 2016, 2:52 am

名詞解釋：直接員工(DL)與間接員工(IDL)的差異，對工時的影響

August 29, 2017, 5:21 pm

AR的正确用法？透过APP看「出包王女」画集能看到裸体！

April 27, 2016, 8:02 pm

关门一家亲：习远平、张澜澜、徐才厚

December 23, 2020, 10:17 pm

EPLAN EDZ parts library (Manufacturers from A to E)

April 22, 2021, 11:57 pm

闲时无聊开发的倒水小游戏

May 13, 2022, 5:53 am

INTP如何脱单 (豆瓣 INTP小组)

May 7, 2016, 8:11 pm

藝術家蔡東雲畫作帶領人們心靈飛向自由

September 1, 2024, 6:52 pm

[白恋字幕组][超电磁侠波鲁吉斯V][超電磁マシーンボルテスV][Chou Denji Machine Voltes V][1977][TV 01-40...

March 1, 2025, 4:36 am

《踏血寻梅》拍援交妹命案春夏露点争新人奖

October 2, 2015, 1:09 pm

盧金箴命理師大栽問(1)－排第1個和最後1個算服務品質有差嗎？

June 16, 2017, 1:22 am

北京狗-優質寶寶-特價

September 14, 2015, 3:31 pm

[手机工具]奇兔刷机工具 V5.4.4.0 官方版

April 21, 2015, 9:42 am

[转载]煞貢、直星、人專吉日\金神七煞歌

March 3, 2016, 6:37 am

出售: (澳門)proac studio-150

November 29, 2018, 11:01 pm

Adobe Acrobat Pro 2024 (v24.5.20414) x64 多语言坡姐版

February 20, 2025, 5:10 pm

【囧夏字幕组&WiKi】女主角失格 Heroine Disqualified [GB][1280x720][MP4]

March 22, 2016, 4:57 am

© 2025 //www.rssing.com