《决策树分类模型预测服装搭配效果.docx》由会员分享,可在线阅读,更多相关《决策树分类模型预测服装搭配效果.docx(5页珍藏版)》请在优知文库上搜索。
1、决策树分类模型预测服装搭配效果作者:李佳宣越来源:大经贸2019年第5期李佳宣越【摘要】随着网络电商平台的逐渐发展,网络购物成为人们日常的经济活动之一,而服装的购买又是网络购物中的巨头。越来越多的人忠于购买搭配好的衣服以至于产生依赖性,当需要自己搭配的时候却无从下手。本文从服装搭配的角度出发,使用决策树的预测功能为用户提供服装搭配效果的建议,以解决用户不知该如何进行服装搭配的问题。【关键词】服装搭配决策树预测模型1 .引言1.1 问题的提出随着社会科技的高速发展,网络电商平台以日渐成熟的技术逐渐成为现代人生活的必备工具之一,根据中商情报网讯:截至2018年12月,我国网络购物消费者规模达6.1
2、0亿,较2017年底增长14.4%,占网民整体比例达73.6%。手机网络购物消费者规模达5.92亿,较2017年底增长17.现,使用比例达72.5机随着竞争的激烈,消费者对现有电商平台的要求也越来越高,为了提供更个性化的优质服务,电商平台也在不断优化自己的推荐系统,提升消费者体验感,增加企业营业收入额。随着服装推荐系统的Id惭成熟与功能趋向完整,消费者在购买衣服时的搭配烦恼也慢慢减少,按照商家或淘宝推荐购买搭配好的套装逐渐成为网购服装的趋势。于是可能就会存在一些潜在的问题。消费者购买套装中的搭配数量是有限的,比如:一件上装可能最多购买了和它搭配的下装三件。而当这三套搭配穿厌烦了,消费者想要和其
3、他衣服搭配的时候却无从下手,不知道该怎么搭配。一些消费者可能会借鉴一些搭配app上的推荐搭配,但是有可能推荐的服装款式自己并没有,或者并不是自己喜欢穿的类型,又由于信息过载严重,搜索引擎的功能不完善等等情况,最后导致不能搭配的衣服被压在箱底,然而这些衣服却可能并没有穿过几次。L2调查研究为了了解目前是否存在这一问题,本次研究之前在网上进行了关于网购与服装搭配情况的调查。调查共收集了252份有效问卷,其中有207人进行过服装网购,被调查的全体均在实体店购买过衣服。调查结果显示,不论线上线下购物,购买商家搭配好的套装人数均多于自己搭配的人数,其次线上购物的消费者购买淘宝推荐的搭配多于自己的搭配。而
4、被调查的所有消费者购买单件物品对应的搭配衣物最多为5件,其中购买2件的人数最多。另外,有80.3%的人表示购买推荐搭配套装之后,都是按照购买回去的套装进行着装。在同一套搭配穿上一段时间之后感到厌烦时,68.75%的人不知道该怎么搭配,其中78.03%的人会参考推荐搭配的app。在使用过搭配推荐app的人中,仅有52.68%的人认为搭配app可以解决他们的问题,也就是说现有的平台不足以解决用户对搭配的需求,有很多服装在被购买之后并没有得到充分的利用,在一定程度上造成了资源的浪费。虽然电商推荐系统的完善推动了消费,但是如果不能提供更好的后续服务,消费者不能很好的处理买回去的衣服,就会产生更多的问题
5、,比如“浙江退货女”“退货交流群”等,其中的一个原因有可能就是在厌烦了穿着给定好的搭配之余消费者不知道该怎么进行搭配。1.3 方法的提出那么有没有办法解决这个问题,让购买的衣服充分利用起来,减少资源的浪费呢。前面也提到了现在有很多服装搭配的app,主要给到消费者搭配意见,提供搭配指导,这是解决前面问题的一种方式,但是同时它涉及到一个问题,如果给出的搭配推荐中的单品是消费者没有的,这时消费者的搭配问题就不能被解决。那么可不可以存在这样一个系统,用户可以直接将想要搭配衣服的标签输入系统,系统根据收集到的信息将搭配效果按某一指标输出,用户可以直观获取搭配效果,从而解决前面提到的搭配问题。目前已有的研
6、究大多是对服装推荐系统的优化,而没有能给出直观服装搭配效果的研究,如果将这一功能加入电商平台,那么消费在购买服装是也可以知道自己想要搭配服装的效果,因为原来购买套装的数量是有限的,这一系统有可能会在之前的消费基础上进一步提高销售额,而且消费者购买回去的衣服也得到了解决,因为不知道怎么穿的衣服的退货情况也会有所缓解,这一功能还会提高平台的点击量,从而不管是对平台还是对用户,都会有一定程度上的提升。2 .方法介绍决策树顾名思义是用来决策的树,是机器学习中最基础的一种算法。决策树是一类常见的机器学习方法,决策树是基于树结构来进行决策的,这恰是人类在面对决策问题时一种很自然的处理机制。我们可以利用决策
7、树的分类作用进行决策,从而判断搭配效果。决策过程中每个判定问题都是对某个属性的“测试”,每个测试的结果或是导出最终结论,或是导出进一步的判定问题。决策树的主要优势就在于数据形式非常容易理解。那么问题就来了,如何构建决策树呢?决策树的构建是数据逐步分裂的过程,构建的步骤如下:步骤1:将所有的数据看成是一个节点,进入步骤2:步骤2:从所有的数据特征中挑选一个数据特征对节点进行分割,进入步骤3;步骤3:生成若干孩子节点,对每一个孩子节点进行判断,如果满足停止分裂的条件,进入步骤4;否则,进入步骤2;步骤5:设置该节点是子节点,其输出的结果为该节点数量占比最大的类别。从上述步骤可以看出,决策生成过程中
8、有三个重要的问题:(1)数据如何分割(2)如何选择分裂的属性(3)什么时候停止分裂2.1 数据分割假如我们已经选择了个分裂的属性,那怎样对数据进行分裂呢?分裂属性的数据类型分为离散型和连续性两种情况,对于离散型的数据,按照属性值进行分裂,每个属性值对应一个分裂节点;对于连续性属性,一般性的做法是对数据按照该属性进行排序,再将数据分成若干区间,如0,10、10,20、20,30,一个区间对应一个节点,若数据的属性值落入某一区间则该数据就属于其对应的节点。2.2 分裂属性的选择我们知道了分裂属性是如何对数据进行分割的,那么我们怎样选择分裂的属性呢?决策树采用贪婪思想进行分裂,即选择可以得到最优分裂
9、结果的属性进行分裂。那么怎样才算是最优的分裂结果?最理想的情况当然是能找到一个属性刚好能够将不同类别分开,但是大多数情况下分裂很难一步到位,我们希望每一次分裂之后孩子节点的数据尽量“纯”,选择分裂属性是要找出能够使所有孩子节点数据最纯的属性,决策树使用信息增益或者信息增益率作为选择属性的依据。用信息增益表示分裂前后跟的数据复杂度和分裂节点数据复杂度的变化值,计算公式表示为:l,l,MlFH1Ill其中Gain表示节点的复杂度,GairI越高,说明复杂度越高。信息增益说白了就是分裂前的数据复杂度减去孩子节点的数据复杂度的和,信息增益越大,分裂后的复杂度减小得越多,分类的效果越明显.节点的复杂度可
10、以用以下两种不同的计算方式:a)牖燃描述了数据的混乱程度,牖越大,混乱程度越高,也就是纯度越低;反之,端越小,混乱程度越低,纯度越高。牖的计算公式如下所示:*oJlin衣,八Kt时应UTl匕.以分RlgR你)81/!四gVKmFIP.U匕g、mhy帐ne+图nng!Xttr.H.”的。gg,crz4MW,Jtl1.&.,Kg0J七-KI-CrIUIlfi的H例raH-IWMicM4tlWri.*.04M不Z.心血EN+七-J1“旧仙什为力UMXfI18不,;出色的AAx.H加江*力出比收”xmIii,wAm-i个u*匚入rwifa*a个*勿伯m*a*af。q也M4d:I.际Ul介Wr疝训Htn
11、UlGtM3JCH口公大SlF.-.一/*/*Citain/r*M.In基懈、必动帆.WMM尹翁致无邦,微升.外力陵州ma女快.OQ.修Wq忙Br捕鼓长就、IK.做款方中.Z1、/,/L七4分修忏e、帙舱外修.幡(色云度鬃、低Mr心中.RQ2W4抬*懵5#后川.JF1:?I牝社*女拉包笊EfPHKMf/VUU设计ZF4.3也.l.筌皮喇.ttW.V.K,BW上“祭3”我)首先以一件上衣为例说明本文使用到的方法原理。选取和这件上衣搭配的推荐下装20条数据作为实验集,5条数据作为训练集。根据服装描述性指标收集20个下装的信息见表1。当然在实际进行试验时,款式不会仅限于这几种,会根据淘宝数据平台天池
12、提供的数据信息进行全面的分类,在这里现已20中为例说明决策原理。用上述数据训练构建决策树,收集20件下装的月售销量,好评数,差评数,按一定的比例换算为统一单位指标作为搭配效果的评分,参考罗宾漂流记的方法用python初步进行决策树构建如下图1所示。根据后退法对决策树进行剪枝优化决策树,最终得到的决策树再用5条训练集进行检验看结果是否与实际相符,若相符则将想要搭配的衣服指标键入,即可得到用该决策树预测的服装搭配效果。若不相符,则对决策树进行改进或随机训练多个决策树构成随机森林达到更精确更准确预测模型。4 .总结服装搭配是近年来一直被各大电商平台关注的一个问题,而现有的搭配是有限的、固定的,一定程度上不够灵活多变,这样就