《《数据采集技术(初级)》实验手册项目6:项目实战网络爬虫.docx》由会员分享,可在线阅读,更多相关《《数据采集技术(初级)》实验手册项目6:项目实战网络爬虫.docx(16页珍藏版)》请在优知文库上搜索。
1、任务1爬取手机端数据任务描述使用ReqUeStS库与抓包工具(拦截查看网络数据包内容的软件)的结合实现一个APP页面内容的爬取。能够通过FiddIer抓包工具配置及使用获取APP数据内容及相关信息,之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。爬取思路如下:(1)安装FiddIer抓包工具。(2)使用FiddIer抓包工具进行网站分析。(3)分析网站。任务步骤第一步下载抓包工具。这里使用FiddIer抓包工具,点击下载按钮后,根据相关提示信息完成内容填写即可实现FiddIer下载,效果如下图所示。俞FMWr*FWebCu99rXhttWA ProgressCOMPAW
2、TKHNoIoGY Telenke FiddIevwvw docs & support PmCMG Q v9 X QSUl Libraries for Web,MObiIe & DesktopTelerikFiddlerThefreewebdebuggingproxyforanybrowser,systemorplatformKeyFeatures第二步FicIdIer安装。双击下载好的软件安装包,之后点击“IAgree”TmStaIr按钮即可安装Fiddler工具。安装完成效果如下图所示。ProgressTelerikFiddler:CompletedCompletedShowdetails
3、Jun-27-18v5.0,20182.28034zz*HpHPS*Hp*z*HTTP Ul22222 2 2 22222 町,-22222I20(so5050so505050so5050so5020(50so505050so10111213M151617181920212223242S26272829303132333435 W 一二一一八二一:二二:二一八,鱼宜立Host TaInel to Tmnelto Ttjinel to Tumd to Tirmelto Tnd to Turmd to Tnd to Tnd to Tnel to Tunnd to T Ttxmd to Tnel t
4、o Tmndto Tiwd to Tmnd to Tumel to Timel to Timd to Tumd to Turmelto Tunnelto TirmeltoURLa小m0 付 8 18ck- 18d dents l.goo:44 dents l.gooflte.axn:44 dents 1.9oogle.cocn:44 dents l.googte.cocn:44 dents 1 goote. co44 dents :44 dten :44 dents l.gooz44 dents 1.9OO0le.c(xn:44 CientSLgOote.cwn中 Cknts 1.9oogle
5、.axn:44 entsl.gooz44 w.gPcc=18ck=lSd CientSl . 900” GXn: 44 dents l.gooie. com :44 cn ts 1 , gooie com : 44 CientS L中 dcntsl.9oie.ccxnzH dents l.900gle. com :44 CkntSl Q00ie. ccxn+ dents :44 dten ts 1 . 900* com: 44 dents l.Qoz44 dents l.Qo44 dents L:44 Keep: All sessions Any Process 为 Find Q Sove夕
6、AutoResponder 劣 Composer QQ Fiddter Orchestra Beta, FiddIerSaipt g Log Fiters = TimeSneO Stabsbcs Inspectors令 ProgreSSKendO URecommended by the iaMost read in JavaScript: Tips for Optimizing yourAngular Application Read Article点击上图中“Tools”菜单下的“Options”按钮进入工具配置界面,效果如卜图所示。点击图中七。所。明。的”按钮,之后进行端口号的配置,效果如
7、下图所示。第四步手机配置。由于抓取的是手机APP数据,因此需要在同一局域网内进行手机网络的配置,进入手机WiFi修改界面,设置手动代理并进行主机IP和端口号的配置,效果如下图所示。WiredSSIDQ高级选项代理手动浏览器会使用HTTP代理,但其他应用可能不会使用。代理费!黄喜主机右192.168.10.233主机IP地址代理豳哥口8888FiddIer扒包工具设置的端口号对以下网址不使用代理取消保存第五步APP页面分析。配置完成后,即可使用当前手机打开需要爬取的APP,这里使用的是美团APP,页面美食网 Q六步查看APP信息。找到需要抓取的页面后,在FidClIer抓包工具页面中会获取到当前
8、APP请求网络的路径,点击路径后即可查看当前APP的相关信息,效果如下图所示。aSWinConfigJReplayXGo.Streamf溟DeCOdelKeep:Allsessions*AnyProcess的Find5Save萌3456789012345Sd444495555599999CJ9999*二:广比匕*lu-广r.ft6.匕TJ)M)n)222222Resl2(x220(20(20(20(20(505050505050H11PH11PH11PH11PH11PZH11P霹HTTPH11PHostURLBodyCachingTunndtotng.me!-H3OTunndtoM443OTu
9、nndto:443OT443OTunnelto:443OT443OTUnndto:443OTunndtodentsLgOOgtecom:443582-cache,must-rTunndto:443582no-cache,mst-nTurmdtocfentsl.googie.axn:443582noade,must-nTunndto:443582ade,must-rTunndto:443582noachejmust.TunndtodentsL:443网络请求路径582-cache,must-f一二R拨957一4UUI-IUJ!Ll200HTTP33,366藐懑黑懑淳懑席一VW222222coo2
10、22222c2o(2o)5o5o5o5oso5o22ol2ot5o5o5o5o5o5o29012345678901234565l6(l6666e.eel&7t777777l。999999999999Ch9-伫匕u*Lu,l1产。匕色曲c匕ft巴广iuH:443dentsL:443:443dentsl.QOO:443dntsl.googte.xnz443dentsl.google.axn:443:443sZmn.wpscdn.zH3xxfigwpstraycfig.js00582no-cade,must-r582-cache,must-r58211oache,must-582noe,must-n
11、582-cade,must-rS82ache,must-f01,137max-age=7200;E582noache,mtS82noache,must582-cache,must-r582-cache,must-f582oade,must-f*582no-cache,musttypeHaPtoteammore电FiddterOrchestraBetaHddterScript3LOeFiltersTnefre色StatisticsInSPeCtorS$AutoResponderWComposerIHeadersTextViewSyntaxViewWebFormsHexViewAuthCookie
12、sRawJSONXML第七步代码编辑基本配置和信息获取完成后即可进行代码的编辑,将上面获取的相关请求头信息填入代码相应的位置,之后将爬取路径放入请求方法中进行页面内容的请求,之后通过JSe)N信息的分析,爬取需要的页面信息,如有需要可将信息保存到本地文件,代码如下所示。#弓|入Requests库importrequestsdefmain():#定义请求头headers=#将FiddIer右上方的内容填在headers中nAccept-Charsetn:UUTF-8”,“Accept-Encoding:,gzip,uUser-Agentn:uAiMeiTuan/OPPO-5.1.I-OPPORl1-1280x720-240-5.5.4-254-866174010228027-qqcpdn,nConnectionn:uKeep-Aliveuz,Host:,u)#循环请