Python爬虫-某政务网站文档爬取,并将正文内容保存在word

奋斗吧
奋斗吧
擅长邻域:未填写

标签: Python爬虫-某政务网站文档爬取,并将正文内容保存在word

2023-07-07 18:23:30 238浏览

将上述地址进行base64.b64decode转码获取url之后,使用浏览器(笔者这里用的google浏览器)打开之后,直接F12启动开发者工具。首先,假设存在一个mongo数据库,我们将采集的数据存入到mongo,后期通过url是否存在mongo而进行url去重。注意这里的“\”以文件夹进行层级分开,如果不需要层级区分,直接将这个“\”去掉即可。:以某政务网网站为例,采集其正文内容,并将其正文内容以docx格式保存为word。最后,查看Preview的时候,基本可以看到想要的目标数据都在该接口地址里面。

前言

本文是该专栏的第1篇,后面会持续分享python爬虫案例干货,记得关注。

地址:aHR0cDovL3d3dy5oZWJlaS5nb3YuY24vc2VhcmNoL3BjUmVuZGVyP3BhZ2VJZD1iOTdhMzg4MzNmNzM0M2NlYmMzMWRlYzQ0NTQ0ZjY4NA==

需求:以某政务网网站为例,采集其正文内容,并将其正文内容以docx格式保存为word。

废话不多说,跟着笔者直接往下看详细内容。(附带完整代码)

正文

1. 参数分析

将上述地址进行base64.b64decode转码获取url之后,使用浏览器(笔者这里用的google浏览器)打开之后,直接F12启动开发者工具。直接选中Network并点击Fetch/XHR,紧接着,鼠标滑到最底部的翻页按钮处。如下所示:

随机点击某个页数,比如第2或第3页,观察右侧控制台区域是否有刷新数据信息,如下所示:

好博客就要一起分享哦!分享海报

此处可发布评论

评论(0展开评论

暂无评论,快来写一下吧

展开评论

您可能感兴趣的博客

客服QQ 1913284695