《Information Gain[資訊獲利的算法]—.docx》由会员分享,可在线阅读,更多相关《Information Gain[資訊獲利的算法]—.docx(5页珍藏版)》请在优知文库上搜索。
1、InformationGainljR狸利的算法一利即“测就前的资量”减彳爰的量Gain(A)=/(p,ri)-E(A)j(P,Pnn常或皆不卷0MPM二一片噫再一再噫有/(p,)=o常或任一0E哆*)年龄婚姻收入30军身高否=30军身低是=30已婚中否=30已婚低否=30已婚低否=30已婚中否30阜身高否=30已婚中否=30已婚中否=30军身中是=30已婚低否=30军身中是30军身低否所有檬本P(S)N(不曾置龄娥412年龄PN=3037婚姻PN军身34已婚18IftAPN低15中25高12若100彳固客,50WH,50彳固不曾黄,即J/(5O5O)=,og23-3log2=一%)f=1若10
2、0彳固BR客,99fflH,1彳固不曾黄,印J/(99.1)=-log,-Iog2=0.081,100-1001002100所以若是分配越平均(50,50),即量大.;所以若是分配越一致(1:99),量小微L度小),分的目的就是希望-I:未分前的量A咸去VE:依照某fJ爵性分的子集合之资言乱量和如上表:分割之前,124彳固有黄甯(P)未分前的量卷:;(4,12)=-log2-log2-=-i(-2)-(-0.124938737)=0.5+lg(3/4)*0.75=0.5+0.311278124=0.81131616161644往下分,可依婚姻,收入,年龄分,比较3匐第性,Jg取Informat
3、ionGain最大的来分枝所有檬本P()献412年龄PN3015=3037依照年龄:符16位IR客分成雨群幺且:年龄30的械率(1+5)/16,而p=l,N=5/(1,5)=-J-log,i-log,-=-!-(-2.5849625)-(-0.263034406)=0.6522422666666年龄=30的檄率;(3+7)16,而p=3,N=73377/(3,7)=-i-log2-log2-=(-(310)*lg(3/10)-(710)*lg(7/10)=0.881290899E(age)=/(1,5)+/(3,7)=0.243758408+0.550806812=0.79461616Gain
4、(A)=I(p,ri)-E(A)Gain(年龈=0.8113-0.7946=0.0167依照婚姻:W16位IR客分成雨群所有檬本P(X)N(不曾翼甯腌)依次列出InfOrmatiOnGain献412婚姻PN军身34已婚18E(婚姻)=所有檬本P(S)阳彳曾整掰献412APN低15中25高12G而(婚姻)=依照收入:符16位客分成3群幺且:依次列出 Information GainE(收入)=GaM收入)=由root(根黠)第一彳固分支的JS性鹰逗那一彳固?未婚的下一彳固分支黠何,假IS第一彳固分支婚姻?由婚姻可分卷2支,f已婚,另一;未婚年龄婚姻收入黄肇言己型甯30军身高否=30罩身低是=30军身中是=30军身中是=30已婚中否=30已婚低否=30已婚低否=30已婚中否=30已婚中否=30已婚中否=30已婚低否所有檬本P(M)N(不曾翼重腌)mm18年龄PN=30(l,8)=E,(age)=Gain,(age)=E(收入=)Gain,(收入)二s:未婚的下一(S分支MJ翦性?SiS那一彳固?