《基于细粒度用户可靠性的众包任务分配研究分析工商管理专业.docx》由会员分享,可在线阅读,更多相关《基于细粒度用户可靠性的众包任务分配研究分析工商管理专业.docx(36页珍藏版)》请在优知文库上搜索。
1、前言3第1章绪论411J)IJ.正页;111.2 国内外研究现状及挑战41.3 本文的主要工作及创新点4第2章相关技术和研究工作72.1 众包基本特征72.1.2与外包区别72.2 众包工作流程823)iJIj82.2.1 AmazonMechanicalTurk82.2.2 科研领域应用9旦.fjlS*12.4.1 低质量结果产生的原因102.4.2 相关工作115J-1一*11第3章问题抽象与模型建立13第4章算法研究154.1 共聚类可靠性矩阵154.1.1 基于用户回答准确率的任务聚类154.1.2 计算共聚类164.2 预1贝!目K任务正确答案.,164.2.1 朴素贝叶斯相关的统计
2、学知识164.2.2 朴素贝叶斯模型174.2.3 3预贝!目K任务答案.,.17第5章实验与对比225.1 模拟仿真5.1.1 贝塔分布5.1.2 狄利克雷分布5.1.3 模拟用户作答5.1.4 分析预测结果5.2 相关预测方法5.2.1 majorityvoting5.2.2 weightedvoting5.3 方法对比5.3.1 k折交叉验证.5.3.2 对比结果5.4 本章小结第6章总结与展望6.1 本文总结6.2 后续工作展望.22.22.22.23.23.25.25.25.26.26.26.29.30.30.30.32.346.3 致谢摘要众包(CrOWdSoUrCing)计算模式
3、因其自身优势,近年来被学术界视为一种高效大规模数据集收集方式。但是,由于众包用户自身能力所限,不同用户提供的答案可能存在不合理的情况。因此,如何将收集到的用户答案进行整合,来推断任务的正确答案,是一项关键问题。己有的真实答案预测方法通过挖掘用户可靠性和任务话题之间的相关性来解决这一问题。但是,己有研究仅在有限的任务上起作用,对标准数据集的利用不充分,对于有些任务不兼容。为了考虑兼容性,我们认为任务和用户都存在聚类,进而提出了一个通用的细粒度方法。该方法包括两个方面:建立共聚类和基于共聚类可靠性模型的真实答案预测机制。首先,基于用户对标准任务的回答,利用特定的聚类方法得到用户聚类、任务聚类,建立
4、共聚类可靠性模型。然后对于一系列答案未知的目标任务,根据学习得到的模型,将收集到的用户答案以特定的方式组合,预测出目标任务的真实答案。通过理论分析,我们证明了本论文提出的方法适用性强,可以更好的表达用户和任务之间的关系。同时,实验表明,我们的方法可以对目标任务得到更为精确的估计。关键词:众包;共聚类模型;答案预测;标准任务AbstractCrowdsourcinghasbeenregardedasaveryefficientandpromisingmethodtocollectlargedatasetsinrecentyearsduetoitsnativeadvantages.Unfortun
5、ately,theanswersprovidedbyworkersofcrowdsourcingarenotalwaysreasonablesincethevariationabilitiesofworkers.Sohowtointegratethecollectedanswerstoinferthetrueanswerofthetargettasksisacriticalissue.Existingstate-of-the-arttruthdiscoverymethodssolvetheproblembyexploringthecorrelationbetweensourcereliabil
6、ityandtasktopics.However,theabovemethodscanonlyworkwellinlimitedtasks,sincetheyoftendonotmakefulluseofglobaldatasets.Weconsiderthatbothtasksandsourcesexistclustersandproposeageneralfine-grainedmethod,whichcanmaintaincompatibility.Themethodincludestwoaspects:buildingco-clusterreliabilityanddiscoverin
7、gtrueanswer.First,basedonanswersforstandardtasks,wecancalculatethesourceclustersandtaskclustersthroughspecificalgorithmsothatco-clusterreliabilitymatrixcanbebuilt.Thenforaseriousoftargettasks,wecollectworkers,answersandaggregatethem,makingfulluseofthepattern,toproducetheestimation.Throughthetheoreti
8、calanalysis,ourapproachiscompatiblewithvarioustasks.Itcanbetterdescribetherelationshipbetweenworkersandtasks.Atthesametime,weshowthatourmethodcanproduceamoreaccurateestimationthroughextensiveexperimentalresults.Keywords:crowdsourcing;co-cluster;answerestimation;standardtasks随着互联网的不断发展,众包这种新的生产组织形式应运
9、而生。企业为了有效地解决技术问题或者是发现创意想法,利用互联网发布各种任务。而网络大众里,有些人是兴趣驱动,有些人是利益驱动,利用自己的时间,通过网络这一媒介,来完成企业发布的任务。众包提供了i种全新的组织大量劳动力的方式,对于软件业和服务业尤其有用。本文介绍了众包模式以及众包的广泛应用,包括一些众包平台和众包在科研领域的应用,同时也提出了该模式存在的问题,指出众包的质量控制是一项值得科研工作者去研究探讨的问题,进而提出了本文的众包模式学习方法,通过有效的将用户和任务进行聚类,学习用户类和任务类之间的可靠性,更加有效准确地解决任务,此方法具有良好的通用性。本文完成的主要工作及创新点有:(1)介
10、绍众包模式以及众包的工作流程,列举了一些众包平台和众包在科研领域的应用,阐明了众包的研究价值,同时提出了众包模式中存在的问题。(2)提出用户和任务分别存在聚类,将用户集和任务集分别聚类。同时学习用户聚类和任务聚类,得到共聚类可靠性模型,从而得到比现有方法更为通用的模型。(3)利用学习到的共聚类可靠性模型,结合朴素贝叶斯的思想,采取特定的算法,得到对目标任务序列的真实答案更为精确的估计。(4)我们通过在真实的数据集上进行实验,将该方法和现有基本方法的效果进行对比与分析,验证了该方法的有效性。第1章绪论本章首先介绍了众包的研究背景和意义,然后简单介绍了众包国内外研究现状,其次,概述了本文所做的主要
11、工作以及创新点,在本章的最后介绍了这篇论文的组织结构。1.1 研究课题的提出近年来,产生大规模数据集对于研究和工业应用都有着巨大的价值。传统的策略大多是雇佣对相关领域感兴趣的专家,但想要收集大规模的数据,几乎是要付出很大代价且几乎不可能实现的。因此,众包服务,像AMT(AmazonMechanicalTurk)或者CrOWdFk)Wer,通过将将任务分发给全世界的用户,来收集数据集。1.2 国内外研究现状及挑战由于众包在提供大规模数据集时有着很好的有效性,因此它越来越受欢迎。用户不一定要是领域专家,任务也通常不止分发给一个用户,这导致了用户们的答案质量往往是参差不齐的。因此,如何聚集用户答案来
12、推断任务的真实答案是众包领域的一个关键性挑战。一个直观的解决方法是最大值投票法,该方法将被最多数目的用户选择的答案作为最终的真实答案。但是,它没有考虑到一个问题,用户之间的可靠性是参差不齐的当低质量的用户数目比高质量用户数目还多时,这种方法得到的结果并不理想。为了解决这个问题,一系列加权投票的方法被提出,这类方法的宗旨是给有着更高可靠性的用户赋予一个更大的权重,从而该用户所给出的答案对于最终答案的影响因子也更大。然而,这些方法的一个共同特点是,均假设一个用户对于所有任务的可靠性是一致的。其实这是不合理的,因为任务类型是各种各样的,每个用户也都有自己所擅长的任务类型。1.3 本文的主要工作及创新
13、点本文首先介绍了众包是什么,众包模式是如何工作的,我们研究众包的意义和价值体现在哪,同时提出了众包模式中的存在问题,为此,提出了本文的解决方案,也是本文的核心问题。我们充分利用了每个事物都有其代表特征这一想法,认为用户之间存在用户聚类,任务之间存在任务聚类。同一类任务或者同一类用户享有同样的模式而不考虑他们之间的差异性。比如说,一个用户聚类共享的模式是该用户聚类对于各种任务聚类的可靠性。更具体的说,一个用户对于不同的任务类型有着不同的可靠性,但是,我们认为对于一个特定的任务聚类,属于同一个用户聚类的用户们的可靠性是相同的。虽然我们清楚,每个用户都是独一无二的,对于同一任务的认知或者说是可靠性不
14、可能完全相同,但我们将最为相似的用户聚集在一起而不考虑他们之间的细微差别。对于任务来说,也是同理,我们将最为相似的任务聚集在一起而不考虑他们之间细微差别。利用聚类的想法,可以使我们的方法有着更好的通用性和有效性。因此,我们首先学习用户聚类和任务聚类,得到共聚类可靠性矩阵,然后基于该模式,分别通过随机选择一定个数的用户,和基于用户标签及共聚类可靠性矩阵选择用户,来回答目标任务,通过特定的算法获得任务的正确答案推断。在本文中,我们首先引入标准任务,即拥有标准答案的一类数据。用户首先对给定的标准任务进行作答,根据作答情况,得到用户特征,采用k-means算法的思想对用户进行聚类,然后计算出任务特征,采用类似的思想对任务进行聚类,学习到用户聚类和任务聚类以后,计算得到共聚类可靠性矩阵,代表同类用户与同类任务的相关性。然后根据学习到的模型,利用朴素贝叶斯算法的思想,预测