《Python爬取网站资料.docx》由会员分享,可在线阅读,更多相关《Python爬取网站资料.docx(5页珍藏版)》请在优知文库上搜索。
1、行业动态1绿资产评估协会维权委员会专家提示201帽:1凉注册会计师协会专家委员会专家提示第6号W凉注册会计师协会专家委员会专家提示第9号集注册会计师协会专家委员会专家提示201.加注册会计师协会专家委员会专家提示201.北京注册会计师协会专家委员会专家提示第7号归北京注册会计师协会专家委员会专家提示201.幢北京注册会计师协会专家委员会专家提示201.悄北京注册会计师协会专业技术委员会专家提示北京注册会计师协会专家委员会专家提示第8号北京注册会计师协会专家委员会专家提示201.北京注册会计师协会专家委员会专家提示201.01原注册会计师协会专家委员会专家提示201区凉注册会计师协会专家委员会专
2、家提示2。j加注册会计师协会专家委员会专家提示201.原注册会计师协会专家委员会专家提示201.北京注册会计师协会专业技术委员会专家提示显I北京注册会计师协会专烹蕃吊会专瘵提示幡W集注册会计师协会关于发布专家委员会专家.但1绿注册会计师协会专家委员会专家提示201幡1绿资产评估协会中小评盾机构技术援助专家隹1凉注册会计师协会专家委员会专家提示(20.1集注册会计师协会专家委员会专家提示201.梢1集注册会计师协会专家委员会专家提示(20.SW凉资产评估协会中小评估机构技术援助专家西11绿注册会计师协会专家委员会专家提示201.僮1凉注册会计师协会专家委员会专家提示201槟1苏注册会计师协会专家
3、委员会专家提示第4号西1凉注册会计师协会专家委员会专家提示201.1集注册会计师协会专家委员会专家提示第2号与1绿注册会计师协会专家委员会专家提示201.1绿注册会计师协会专业技术委员会专家提示隹14注册会计师协会专家委员会专家提示201.隹1凉注册会计师协会专家委员会专家提示第3号1凉注册会计师协会专家委员会专家提示201.油北京注册会计师饰会专友夺吊会专瘵摞示1201Python爬取网站资料爬取数据来源:http:/www.bicpa.org.en/dtzj/zxgg/B15435553852066.html第箱登录IOA登录北京资产评估协会BijingAppraiMlSocwty,北京注
4、册会计师协会G、工BijicgInstituteofCnifidPublicAccountants服务监督管理协调首页协会介S深改委会员服务考试培训执业监管媒体关注30周年专栏T晾地E会WW务所202碑出J1.t市公司202弄度审计2024-03-117晾中企华资产iH5fllWHI公司.,蹿天他兴业资产怦估2024-03-04T绰资产评估协会与资产处监IKtS开2024年第T度费2024-02-29T6注册会i懵物会人才工作委员会召开202侔第一次全2024-02-27T晾地区会Hg务所202好出|上市公司202弄度审计2024-02-21文件开始插入设计布局引用由附亩间视图帮助特色功能Q告
5、诉我共享I北京注册会计师协会专业技术委员会专家提示2020第2号一采川远程审计方式的特别考虑2020-02-1216:53:53http:/WaVdtzjzxggB15814976145963.htnl为有效应对新型冠状病毒肺炎疫情带来的不利影响,做好2019年年报审计工作,克服部分现场审计程序无法按准则规定和慎定审计计划实施等困难,部分会计师事务所结合工作实际,力争既有效防控凌情,又枳极配合客户和监管部门的要求执行2019年年报由计工作,紧急制定了远程亩计工作相关措施。鉴于目前在亩计准则及指南中均没有就远程亩计工作方式提供相关规定和行业执业意见,并且绝大部分会计师事务所穗乏大规模实施远程亩计
6、工作的经短,因此,在实施远程由计工作的过程中,可能存在因管控措施不当导致亩计风险提升的情形。本提示仅供事务所及相关从业人员在执业时参考,不能普代相关法律法规、注册会计师执业准则以及注册会计师职业判断。提示中所涉及亩计程序的时间、范围和程度等,事务所及相关从业人员在执业中需结合项目实际情况、风睑导向原则以及注册会计师的职业判断确定,不能直接照搬照抄。为积极推进2019年年报宙计工作,防范远程亩计工作相关风险,北京注协财务报表亩计和非鉴证业务服务专业技术委员会针对疫情防控期间远程亩计工作提出如下执业建议:一、对远程宙计工作方式的定义和条件的理解远程审计,是指注册会计师受特殊情况和不可抗力(例如突发
7、公共卫生等全国性或区域性壬*八t市仕、鼠gT注坤照叩辛舌讣4+川林源击;4的tt三E;+IA格5比兰幽寻格丽第1页,共7页6634个字CB英语(美国)雷昌同代码说明:Print(开始爬取文章.”)importrequestsimportosimportjsonheader=User-Agent:Mozilla5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/68.0.3440.75Safari537.36,fonn_data=,-q,:,Article.list,siteld,:,7e0b3b27-2622-4a
8、a7-b6f8-abfe5c5df922,catalogld,:,34f92da3-d6d0-4e96-899f-d7f58lc18162;,pub,:,true,limit:5000,start:1#这是异步加载,请求方法是POSTurl=http:WWWarticle-data=res.text.split(nsuccess:true,datas:H)l#去掉字符串前面的无用信息success:true,datas:“article_data=article-data.split(11,total:)0#去掉字符串后面的无用信息,totak4946,obj=json.loads(artic
9、le-data)#获取标题含有“委员会专家提示”的文章的标题,发布时间和链接path=rhttpz11articles=forinfoinobj:if委员会专家提示ininfo,title,:article=“标题”:infol,title,.strip(),#StriP()去除首尾空格”发布时间:info,publishDate,”链接”:path+infour+infol,primaryKey,+,.htmlu)articles.append(cirticle)#获取想要的文章并批量写入word文件importrequestsfrombs4importBeautifulSoupimport
10、docxfromdocx.sharedimportPt#用于设定字体大小(磅值)fromdocx.oxml.nsimportqn#用于应用中文字体importrandomimporttimedefGet_article_to_word(url,date):user_agent_list=,Mozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/68.0.3440.106Safari537.36u,nMozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHT
11、M1.,likeGecko)Chrome/67.0.3396.99Safari537.36n,nMozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/64.0.3282.186Safari537.36u,nMozilla5.0(XI1;1.inuxx86_64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/62.0.3202.62Safari537.3611,nMozilla5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KH
12、TM1.,likeGecko)Chrome/45.0.2454.101Safari537.36n,nMozilla4.0(compatible;MSIE7.0;WindowsNT6.0)”,nMozilla5.0(Macintosh;U;PPCMacOSX10.5;en-US;rv:1.9.2.15)Gecko/20110303Firefox/3.6.15header=User-Agent:user_agent_list)headerUser-Agent=random.choice(user_agent_list)#每篇文章随机选择浏览器,避免单个浏览器请求太快被服务器切曲连接wb_data=
13、requests.get(url,headers=header)soup=BeautifulSoupCwb_data.content)title=SoUP.select(.headword)0.text.strip。#获得标题contentl=soup.select(11.MsoNormaln)#针对正文布局为class=uMsoNormalncontent2=soup.select(#art_content)#针对正文布局为id=nart_contentndoc=docx.Document()#新建空白Word文档# 设定全局字体doc.stylesNorma门.font.name=u宋体d
14、oc.styles,Norma.-element.rPr.rFonts.set(qn(weastAsia,),Ir宋体)# 写入标题行,并设置字体格式p=doc.add-paragraph()r=p.add_run(title)r.bold=Truer.font.size=Pt(18)doc.add_paragraph(date)#写入日期doc.add_paragraph(url)#写入文章链接dirs=os.getcwd()+”文章ifnotos.path.exists(dirs):os.makedirs(dirs)# 写入正文foriincontent2:doc.add_paragraph(i.text)foriincontent1:doc.add_paragraph(i.text)doc.save(f,dirstitle.docx)#遍历所有文章的链接,调用以上函数执行forartinarticles:GejartiCIJto_word(art链接,art”发布时间”)print(11下载完成。.format(art标题1)ifarticles.index(art)%30=29:#每获取