問答題
問答題
下表中列出了4個點(diǎn)的兩個最近鄰。使用SNN相似度定義,計(jì)算每對點(diǎn)之間的SNN相似度。
問答題
問答題
假設(shè)描述學(xué)生的信息包含屬性:性別,籍貫,年齡。有兩條記錄p、q及兩個簇C1、C2的信息如下,分別求出記錄和簇彼此之間的距離。(k-means算法的拓展)
p={男,廣州,18},q={女,深圳,20}
C1={男:25,女:5;廣州:20,深圳:6,韶關(guān):4;19}
C2={男:3,女:12;汕頭:12,深圳:1,湛江:2;24}
問答題
問答題
問答題
問答題
問答題
考慮下表數(shù)據(jù)集,請完成以下問題:
(1)估計(jì)條件概率。
(2)根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測測試樣本(A=0,B=1,C=0)的類標(biāo)號;
(3)使用Laplace估計(jì)方法,其中p=1/2,l=4,估計(jì)條件概率。
(4)同(2),使用(3)中的條件概率。
(5)比較估計(jì)概率的兩種方法,哪一種更好,為什么?
(5)當(dāng)條件概率為0的時候,條件概率的預(yù)測用Laplace估計(jì)方法比較好,因?yàn)槲覀儾幌胝麄€條件概率計(jì)算結(jié)果為0。
問答題
考慮下表所示二元分類問題的數(shù)據(jù)集。
(1)計(jì)算按照屬性A和B劃分時的信息增益。決策樹歸納算法將會選擇哪個屬性?
(2)計(jì)算按照屬性A和B劃分時Gini系數(shù)。決策樹歸納算法將會選擇哪個屬性?
問答題