《面相社交网络的用户行为分析与预测.docx》由会员分享,可在线阅读,更多相关《面相社交网络的用户行为分析与预测.docx(23页珍藏版)》请在优知文库上搜索。
1、面相社交网络的用户行为分析与预测摘要在大数据时代,信息和数据的高速流转,为Internet的发展创造了有利的条件。社会网络服务(SNS)平台作为数据和用户互动的载体,已经成为人们日常生活中不可或缺的一部分。它不但给人民的生活带来了方便,提高了使用者的满意程度,而且还蕴含着巨大的科研和经济研究价值,给企业带来了巨大的经济效益。本项目以新浪微博为研究对象,对其转发行为进行深入研究,并从用户特征、微博特性、交互特性、结构特性4个角度对转发行为进行研究。在此基础上,本项目拟采用多种机器学习方法,对特定话题下的微博用户是否会进行转发,从而实现对该话题下微博的转发。试验结果显示,采用所选择的因子,并与1.
2、ogiStiC回归模型相结合,可以较好地预测用户的转发行为。关键词:社会网络;微博;转发行为;预测第1章绪论1.1 选题背景伴随着互联网技术和移动技术的不断发展,以互联网为基础的社交媒体及应用得到了迅速发展。在信息化的过程中,人们可以尽情地遨游,享受着网络给他们带来的便利与乐趣。特别是社交网站、博客等在线社会网络的繁荣发展,不仅给信息传播方式带来了技术性变革,还在不知不觉中改变着人们的思维方式和人际交往形式。其中,微博以其原创性、时效性和草根性而闻名,并呈现出了十分强大的发展势头。微博的出现,大大加快了信息在网络中的传播速度,不同层次的用户的转发,都有可能让信息的传播规模呈几何级增加。现在,微
3、博已经成为了一个信息的传播与交流的平台,通过对用户转发行为的预测,能够精确的预测出一条微博的传播范围、发展趋势等;同时,在此过程中,能够对不良的微博信息的传播过程进行有效的介入,从而对信息的传播范围进行控制。1.2 选题的目的与意义研究意义:理论意义在于通过探索用户行为分析与预测的模型和方法,丰富了社交网络研究领域的理论基础,为相关领域的学术研究提供了新的思路和方法。同时.,由于社交网络已成为商业运营和市场营销的重要渠道,研究结果将对企业决策和营销策略的制定产生积极影响,帮助企业更好地理解用户需求、优化产品设计、提高营销效果,具有重要的现实意义。研究目的:通过深入分析和理解社交网络中的用户行为
4、,探索其中的规律和趋势,并基于这些信息进行行为预测,以提供更加精确的个性化推荐和增强用户参与度。通过综合运用数据挖掘、机器学习和人工智能等技术手段,研究者旨在提高社交网络服务的质量和效益,提供更好的用户体验及商业增长。1.3 国内外研究现状1.3.1 国内研究现状刘俊晓、李爽、谢嘉玮(2023)对30篇文献进行了Meta分析,抽取53个影响因素,并对其进行了相关性分析,如出版偏差、总体影响、调节影响等。心理因素和信息因素中包含的8个影响因素与用户的信息规避行为存在着相关关系,其中,信息杂乱因素的相关性最强,情绪因素的相关性最弱。而在知觉上,性别、隐私性、资讯品质、科目差异等因素对知觉上的影响更
5、为显著。个人隐私忧虑更容易受到情绪的影响。在此基础上,谢柏林、黎琦和魏娜(2023)等人提出了一种基于使用者的个性特征识别算法。首先,构建基于社会网络的个性特征字典,从用户发表和转发的文字中抽取能够体现其个性特征的重要特征,然后,利用隐半马尔可夫模型对其进行参数化,以5个参数分别描述其在社会网络中的表达和转发行为。在个性特征识别阶段,根据不同的个性特征,根据不同的个性特征,对不同的个性特征进行分类。通过对大量新浪微博数据的测试,发现在错误率为10%的情况下,所提算法的总体正确率达到93.18%,并且能够对用户的性格特征进行正确的分类。杨瑞仙、许帆、沈嘉宁(2023)借鉴已有的影响因子,以社会渗
6、透性理论为基础,以新浪微博为案例,采用爬虫技术收集新浪微博的用户信息,对用户信息的披露进行测度。本项目发现,人口统计变量、社会网络体验、社会网络规模、微博生产力等因素对用户公开信息的敏感度和维度都有不同的影响,而人口统计变量会对用户公开真实隐私的行为产生影响,这有别于对部分个人隐私公开意愿的研究。基于用户客观数据的隐私泄露行为测度不仅可以深化对社会网络中用户泄露行为的认识,还可以为相关领域的研究提供数据支持。钱蒙、王子明和程树林(2023)对影响的有关概念进行了解释,回顾了影响评价的重要成果,着重探讨了影响评价的三种方式,即从网络的结构特征、用户的行为特征和用户的情感倾向三个方面来评价影响。最
7、后,本项目还将对社会网络环境下用户影响评价的理论与方法进行深入探讨。陈坚、张弛、傅志妍等人(2023)通过网络科学核心数据库和CNKI知网数据库对2010-2022年期间的英文论文133篇,中文论文32篇。运用知识图谱分析和传统定性文献分析两种方式,对统计文献的每年发文量进行量化,对热点国家,关键词图谱这3类指标进行研究,并从方法模型、社交网络信息行为、社交网络信息对出行决策的影响、社交网络信息对出行活动的影响这4个方面,对现有研究成果进行总结。徐翔(2023)以新浪微博为研究对象,采用隐含语义分析、用户相似性计算、统计测试、路径分析等手段,探索社会网络中观点领袖的“标准化”现象及路径。新浪微
8、博用户呈现出独特的“整体规格化”,并伴随着“顶点规格化”和“邻居规格化”的演化。这些“标准化”既不彼此独立,也不互相矛盾,它们具有一种内部运作的结构,即同步的进程。高影响的观点领袖用户并未相互区分,反而加剧了社交网络社区的内容封闭,暴露了“个人信息茧房外的群体信息茧房”风险,而在“个人信息茧房”外,隐藏着“群体信息茧房”的“异化”逻辑。1.3.2 国外研究现状Bo1.1.ENJ提出在信息时代,在市场营销、舆情管控、热点选择等诸多领域,都需要有效地获得并传播信息、,所以,对社交网络中信息传播行为的研究也就成了学者们关注的焦点。在此之前,已经有很多关于用户转发行为的研究。SUHB分析了对TWitt
9、er转发有影响的文本特征和用户特征,利用主成份分析法(PCA),发现了影响转发的主要因素有:UR1.数目、hashtags数目、粉丝数和关注数。ZAMANTR只是抽取了用户特征、微博中所含的词语数等特征,构建了一种基于概率的协同过滤模型,来预测用户转发概率,但很明显,这些特征并不是最重要的影响因素。WEBBER1.EY的研究表明,转发链的长度是有限制的,转发链越长,用户对于原始消息的转发概率会越小。在多种不同的研究方法中,有些人已经开始将注意力集中到了用户所处的环境对其产生的影响上,比如,ZHANGJ从微博数据中发现,在很大程度上,用户所处的本地社会结构会对用户的转发行为产生很大的影响,最后利
10、用逻辑回归模型进行学习,最终得到了一个预测转发行为模型。在UGANDERJ的研究中,发现用户受周围活跃邻居节点的连接组成而不受活跃邻居节点的数量的影响。NARAYANAMR采用了这样一种思路,即一个用户会受到周围邻居节点的影响,如果周围的活跃节点数量比较多,则这个用户转发的概率就会增加,进而提出了线性阈值模型(1.TM)来对用户的转发行为进行预测。1.3.3 小结综上所示,社交网络已成为人们日常生活中重要的沟通和信息分享平台,用户行为分析与预测对于实现个性化推荐、精准营销等方面具有重要意义。因此,通过收集和分析社交网络上的大量用户数据,可以揭示用户在社交网络上的行为特征和模式,为实现更好的用户
11、体验和商业利益提供有力的支持。1.4 研究内容为了研究中存在的缺陷,作者以实际的微博数据为基础,并结合以往的研究成果,从四个方面,共9个方面,与传统的研究方法相比较,不仅考虑到了用户附近的邻居节点的局部结构,还将用户最近的活动度、交互度、兴趣等信息纳入其中,并在此基础上,加入了几种基本的特征,运用四种常见的有监督的分类算法,来预测用户的转发行为。实验证明,将所提出的特征因子与1.OgiStiC回归算法相结合,能够有效地对微博用户的转发行为进行预测,其Fl测度可达76.43%。1.5研究思路与论文结构图1-1技术路线图第2章数据描述本研究采用的是中国最大的微薄平台新浪微博,该数据来自于清华大学唐
12、杰教授所带领的新浪微薄研究小组。首先,随机选取100个种子用户,并分别收集其跟随者和跟随者的跟随者。这个抓取程序得到了170万名用户和三亿名朋友的追随,经过统计,平均每位用户拥有200名“追随者”。对每一位用户,都会对其最新发表的10000条微薄进行抓取。由于文章的核心是对用户的转发行为进行分析,所以文章以信息的传播顺序为基础,得出了一条微博的平均转发量为80次。所抽取的资料列于表1中。表1新浪TwitterDatesel二Users/Following-relationships4tOriginal-Inicroblogs二RetweetsWeibo177695030848973930000
13、08102.1 问题的描述在微博网络中,每个用户都能够关注其他人,关系网络可以被看成是一个有向图,我们使用G=(U,E,M)来对微博网络进行描述,其中U代表的是所有用户的集合,E,UxU代表的是所有用户之间的关系,euv,E指的是用户V关注了用户u,M指的是网络中的原创微博和转发微博的集合。在此基础上,提出了一种基于信息传递的新方法。图1为图中实线箭头所示的关系网,指示U为v,n为V为v;虚线箭头代表的是一个信息传播网络,V将U发出的原始信息m进行转发,n又将V发出的信息m,进行转发,n为第二个转发点,n还可以直接将U发出的信息进行转发。m图1:微薄信息扩散图研究内容包括:1.用户转发行为的预
14、测。假定用户U发了一条微博m,用yv=f(u,V,m)来代表其粉丝V在看到m后所采取的行为,其中yv=0,l,当yv=l表示转发,yv=O表示不转发,这是一个典型的二分类问题。2.2 识别转发行为微博转发行为是指微博用户在浏览他人发布的微博内容后,选择将这些内容转发到自己的微博平台上,让自己的关注者也能看到并参与评论、点赞等交互反馈的一种社交行为。这一行为在中国社交媒体领域具有广泛的影响力,并成为了网民表达意见、传播信息、互动沟通等重要方式之一。首先,微博转发行为作为一种社交行为,具有明确的功能和目的。通过转发他人的微博,用户可以分享自己感兴趣或认同的内容,向自己的关注者展示个人观点、态度或情
15、感倾向。转发还能够帮助用户扩大影响力,增加粉丝数量,提高对特定话题或事件的讨论度,从而形成更广泛的社交网络。其次,微博转发行为涵盖了多层次的信息传播和社交互动。当用户转发他人的微博时,原始微博的内容会被复制并显示在转发者的个人页面上,同时携带有原始作者的用户名和原始微博链接。这使得转发者成为信息的传播节点,帮助推广原始作者的观点和言论。在转发过程中,用户可以选择是否添加自己的评论或表达观点,这为转发行为赋予了更多个人化的特征,并且为用户之间的互动提供了平台。此外,微博转发行为也具有一定的传播效应和影响力。当用户转发他人的微博时,该微博的内容会被展示给其关注者,而关注者又可以将其转发给自己的关注
16、者,从而形成信息的连锁传播。这种传播效应可以在短时间内将一个内容扩散到更广泛的用户群体,使得原始微博的作者在社交媒体平台上获得更大的曝光度和声誉。最后,微博转发行为还反映了用户对于信息的价值判断和社交认同。用户通过转发特定内容来展现自己对该内容的认同、支持或关注,同时也将其呈现给自己的关注者,以期引起共鸣或讨论。转发行为也可以作为用户参与社会议题、公共事件等的方式之一,促进公众舆论的形成和传递。因此,在一定程度上,微博转发行为反映了网络用户的表达意愿、文化偏好和社会关系。在研究微博转发行为时,学者们关注的焦点主要包括以下几个方面。一是用户转发行为的动机和目的,即转发内容的决策过程和背后的心理因素。二是转发行为对信息传播和舆论形成的影响,如传播