《sparkmlib算法使用有代码输入输出.docx》由会员分享,可在线阅读,更多相关《sparkmlib算法使用有代码输入输出.docx(43页珍藏版)》请在优知文库上搜索。
1、目录笫1章分类与回归61. 1支持向量机61.1.1 算法描述和定义61.1.2 输入参数和含义71.1.3代码展示71.1.4应用场景81.2逻辑回归81.2.1 算法描述和定义81.2.2 输入参数和含义81.2.3代码展示81.2.4应用场景81.3 线性回归91.3.1 算法描述和定义91.3.2 输入参数和含义101.3.3 代码展示101.3.4 应用场景101.4 朴素贝叶斯111.4.1 4.1算法描述和含义111.4.2 输入参数和含义111.4.3 代码展示111.4.4 应用场景121.5 决策树121.5 .1算法描述和定义121.5.2 输入参数和含义121.5.3
2、代码展示121.5.4 应用场景131.6 随机森林141.6.2 算法描述和定义141.6.3 输入参数和含义141.6.4 代码展示141.6.5 应用场景151.7 梯度提升树151.7 .1算法描述和定义151.7.2 输入参数和含义151.7.3 代码展示151.7.4 应用场景171.8 保序回归171.8.2 算法描述和定义171.8.3 输入参数和含义171.8.4 代码展示171.8.5 应用场景18第2章协同过速192.1 算法描述和定义192.2 输入参数和含义192.3 代码展示192.4 应用场景21第3章聚类223. 1K-MEAXS223.1.1 算法描述和定义2
3、23.1.2 输入参数和含义223.1.3 代码展示223. 1.4应用场景243.2 高斯退合243.2.1 算法描述和定义243.2.2 输入参数和含义243.2.3 代码展示253.2.4 2.4应用场景253.3 快速迭代聚类(图片)253.3.1 算法描述和定义253.3.2 输入参数和含义263.3.3 代码展示273.3.4 应用场景273.4 三层贝叶斯概率模型283.4.1 算法描述和定义283.4.2 输入参数和含义303.4.3 代码展示313.4.4 应用场景313.5 二分K-MEAXS聚类313.5.1算法描述和定义313.5.2输入叁数和含义323.5.3代码展示
4、323.5.4应用场景333.6流K-MEANS333.6.1算法描述和定义333. 6.2输入参数和含义333.6.3代码展示333.6.4应用场景34第4章降维算法354. 1奇异值分解354.1.1 算法描述和定义354. 1.2输入参数和含义354. 1.3代码展示354. 1.4应用场景364.2主成分分析(PCA)364.2.1 算法描述和定义364.2.2 2.2输入参数和含义364.2.3 代码展示364.2.4 应用场景37第5章统计385. 1相关统计385.1.1算法描述和定义385.1.2输入参数和含义385. 1.3代码展示385. 1.4应用场景385.2 分层采样
5、385. 2.1算法描述和定义386. 2.2输入参数和含义387. 2.3代码展示398. 2.4应用场景395.3 假设检脱395.3.1算法描述和定义395.3.2输入参数和含义391.1.3 代码展示391.1.4 应用场景5.4 流式显著性测试错误!未定义书签.错误!未定义书笠.偌误!未定义书筌.错误!未定义书签.错误!未定义书签.IO5.4.1 算法描逑和定义5.4.2 输入参数和含义5.4.3 4.3代码展示5.4.4 应用场景5.5 随机数发生器5.5.1 算法描述和定义405.5.2 输入参数和含义405.5.3 代码展示405.5.4 5.4应用场景41错误!未定义书签.错
6、误!未定义书筌.错误!未定义书签.错误!未定义书笠.传误!未定义书笈.5.6 核密度估计5.6.1 算法描述和定义5.6.2 输入参数和含义5. 6.3代码展示6. 6.4应用场景第6章特征抽取和变换417. 1TE-IDH436.1.1算法描述和定义436.1.2输入参数和含义436.1.3代码展示436.1.4应用场景446.2词到变量446.2.1 算法描述和定义446.2.2 输入参数和含义446.2.3 代码展示456.2.4 应用场景456.3标准化466.3.1算法描逑和定义466.3.2 输入参数和含义466.3.3 代码展示466.3.4 应用场景466.4正规化466.4.
7、1算法描述和定义166.4.2输入参数和含义476.4.3代码展示476.4.4应用场景47第1章分类与回归1.1 支持向量机1.1.1 算法描述和定义 原创性(非组合)的具有明显亘观几何意义的分类算法,具有较高的准确率 源于VaPnik和CherVOnenkiS关于统计学习的早期工作(1971年),第一Ii有关论文由Boser、Guyon.VaPnik发表在1992年(参考文档见麻家炜书9.10节) 思想直观,但细节异常复杂,内容涉及凸分折算法,核函数,神经网络等高深的领域.几乎可以写成单独的大部头专著.大部分非专业人士会觉得难以理解. 某名人评论:SVM是让IS用败学家J1.正得到应用的一
8、种算法神经回烙与支持向量机(包含核方法)都是非或性分类楔型.19864-,RUmme1.hnrt与MeSe1.1.and创造了神经同络的学习算法BaCkPrOpaga1.ion。后来.YaPnik等人于1992年提出了支持向量机。神经网络是多层(逋常是三层)的非线性模型,支持向量机利用核技巧把非线性问题转换成竣性问题.神经同络与支持向量机一直处于“竞争”关系,SCho1.kOPf是VaPnik的大弟子,支持向量机与候方法研究的硕军人物,JgScho1.kopfi,VaPnik当初创造支持向量机就是想干掉神经网烙(Hewantedtoki1.1.Neura1.Network)支持句机确实很有效,
9、一段时何支持向量机一派占了上风。由于神投同格等我新兴的机器学习方法的研究遇到一些重要的困难,比方如何确定阿珞转构的问题、过学习与欠学习同即、局部板小点间也等,使得S四迅速开展和完善,在解决小样本、非线性及离堆模式识别问限中表现出许多特有的优势.并能够推广应用到函政拟合等其他机器学习同?!中.从此迅速的开展起来现在已经在许多领域(生物信愿学,文本和手写识别等)都取得了戌功的应用。在地球物理反演当中解决我段性反濯也有显著成效,例如(支持向量机在预测地下水涌水量用题等.现在该算法被被应用的主要有:石油和井中利用浏井资料慎测地层孔琮度及拈粒含量、天气侦报工作等.通过核函数将特征映射到其他维度1.1.2
10、 输入参数和含义mp1.e.Kbcvm.daU.txt记不文馆DMI1.mQ)KBiYI即业O128:51129:159130:253131:159132:50155:48156:238157:252158:252159:252160:237549:238550:253551:162567:855$8:252569:249570:146571:48572:29573:85574:178574:251655:253$56:220681:24682:193683:253684:2201125:145126:255127:211128:31154380:143406:178407:254408:16
11、2434:178435:254436:240462:113463:254464:2404903212:244213:251214:251215:211216:213217:251218:251219:31236:80237:181238:25566:67567:236568:251569:251570:191571:190572:111573:72574:190575:191576:197248655:253656:119682:225683:235684:491100:166101:222102:55128:197129:254130596:254597:254598:254599:1796
12、00:64601:5623:32624:20$625:183626:970155:531566:96513:109514:251515:253516:251517:137520:150521:251522:251523:251524:71549:253330:251331:35345:47346:211347:253348:251349:251350:142354:37355:25135601155:178156:255157:105182:6183:188184:253185:216186:14210:14211:202212:25361:99262:253263:253264:253265
13、:253266:253267:254268:253269:253270:213271:992:118595:253596:253597:238598:215599:49600:20$01:20602:20603:66604:215605:24:253319:253320:253321:253322:128327:57328:119329:214330:253331:94343:57344:240665:96685:37686:104687:1688:255689:253690:253691:182692:731130:7131:140:251241:251242:251243:251244:2
14、53245:251246:113263:144264:251265:251266:25110509:73510:251511:251512:251513:173514:42515:142516:142517:142518:41522:1007:255408:239409:533:210434:254435:254436:195460:62461:242462:254463:2414,1.八ar.wr1.eAa.fsrrc.*a11a.rrv.a1.cca1.a.cccr.frrr.1.1.3 代码展示importjava.text.Simp1.eDateFormatimportjava.uti1.Dateimportorg.apache.spark.!Iib.C1.assification.SVWde1.SVMUiIhSGDimportorg.apache,spark.ni1.ib.eva1.uation.BinaryciassificationMetricsimportorg.apache,spark.!1.ib.Iina1.g.Vectorsimportorg.apache,spark,n1.1ib.regression.1.abe1.edPointimportorg