当前位置:
首页
博客
博客详情

Python爬虫-某政务网站文档爬取，并将正文内容保存在word

奋斗吧

奋斗吧

擅长邻域：未填写

标签： Python爬虫-某政务网站文档爬取，并将正文内容保存在word

2023-07-07 18:23:30 310浏览

将上述地址进行base64.b64decode转码获取url之后，使用浏览器（笔者这里用的google浏览器）打开之后，直接F12启动开发者工具。首先，假设存在一个mongo数据库，我们将采集的数据存入到mongo，后期通过url是否存在mongo而进行url去重。注意这里的“\”以文件夹进行层级分开，如果不需要层级区分，直接将这个“\”去掉即可。：以某政务网网站为例，采集其正文内容，并将其正文内容以docx格式保存为word。最后，查看Preview的时候，基本可以看到想要的目标数据都在该接口地址里面。

前言

本文是该专栏的第1篇，后面会持续分享python爬虫案例干货，记得关注。

地址：aHR0cDovL3d3dy5oZWJlaS5nb3YuY24vc2VhcmNoL3BjUmVuZGVyP3BhZ2VJZD1iOTdhMzg4MzNmNzM0M2NlYmMzMWRlYzQ0NTQ0ZjY4NA==

需求：以某政务网网站为例，采集其正文内容，并将其正文内容以docx格式保存为word。

废话不多说，跟着笔者直接往下看详细内容。（附带完整代码）

正文

1. 参数分析

将上述地址进行base64.b64decode转码获取url之后，使用浏览器（笔者这里用的google浏览器）打开之后，直接F12启动开发者工具。直接选中Network并点击Fetch/XHR，紧接着，鼠标滑到最底部的翻页按钮处。如下所示：

随机点击某个页数，比如第2或第3页，观察右侧控制台区域是否有刷新数据信息，如下所示：

好博客就要一起分享哦！分享海报

此处可发布评论

评论（0）展开评论

暂无评论，快来写一下吧

展开评论

您可能感兴趣的博客

用python爬虫爬取携程火车票网址信息并保存

【简介】用python爬虫爬取携程火车票网址信息并保存

简单网络爬虫实现-Python(含实现爬取中国大学排名)

【简介】简单网络爬虫实现-Python(含实现爬取中国大学排名)

爬虫Python基础知识点

【简介】爬虫Python基础知识点

Python之pandas 数据读取excel表格与保存

【简介】 Python之pandas 数据读取excel表格与保存

python获取富文本编译器内容里的文字和图片

【简介】 python获取富文本编译器内容里的文字和图片

ssm内测练习试卷文档

【简介】 ssm内测考试练习文档

Java装修网站论文

【简介】 1 绪论1.1 研究背景与目的随着互联网的普及，互联网正在加速转变传统的家装行业。虽然家装行业是一个注重用户体验的行业，但是传统的商场模式已经限制了家装行业的发展，现在大部分的家装企业除了推广自己的

Java个人家乡前台和个人中心功能文档技术文档

【简介】 Java个人家乡前台和个人中心功能文档技术文档

Java财务记账咨询网站代理记账毕业论文

【简介】基于Web的顺鑫财务网上咨询服务中心设计与实现论文

获取富文本编译器的图片

【简介】使用场景，比如我们用富文本编译器上传了一篇图文，默认第一张图片作为封面，但是图片既可以是手动上传的也可以是外联。此时，使用jsoup把html字符串转化成Java可识别的节点文档即可。既可以获取第一

土特产网站写技术文档

【简介】土特产网站写论文

no5-第四章第一次课：内置容器-springmvc支持

【简介】内置容器-springmvc支持

Java古董拍卖网站设计与实现毕业论文

【简介】古董拍卖网站的设计与实现

java学生档案毕业设计论文

【简介】武汉化工学院毕业设计(论文)

no9-springboot项目配置详解-条件注解-内嵌容器

【简介】配置详解,条件注解,内嵌容器

django获取页面session，存取session

【简介】 django获取页面session，存取session python

Java药店技术文档可参考毕业论文

【简介】 Java药店技术文档可参考毕业论文

Java利用word模板导出word包含图片循环数组

【简介】导出简历，word里有表格，电子照，循环数据，挺麻烦，使用word模板可实现。

Springboot开发的大学生宿舍共享厨房系统宿舍自习室宿舍洗衣房系统寝室系统技术文档论文功能部分

【简介】第三章本系统采用Java语言开发，后端使用springboot框架开发，使用MySQL数据库存储数据，前端使用jsp页面，前端框架使用响应式框架bootatrap布局。本章将简单介绍所使用的技

31.swagger生成在线接口文档

【简介】 swagger生成在线接口文档

社区便民服务平台论文

【简介】），完善基础信息（昵称、头像、联系方式）。之后由管理员进行身份信息的审核完成后才可以注册成功。2　可视化个人信息管理：包括基础资料（编辑居住地址、兴趣标签、自我介绍等）、技能档案（标注可提供的服务，填写

奋斗吧

奋斗吧 主页关注

337万+ 人气	865 博客	0 专栏
问答	1 粉丝	0 关注

写博客博客管理

他感兴趣的技术

Java HTML PHP python JavaScript Android MySQL C Linux 微信其他

最热博客更多

1、Windows怎么激活？Windows激活密钥分享 5858

2、黑客入侵的常法 5546

3、类ChatGPT项目的部署与微调(上)：从LLaMA到Alpaca、Vicuna、BELLE 2929

4、黑马Mysql从入门到高级 2916

5、分享200+个关于AI的网站 2568

6、掌握Conda环境迁移的几种方式，从此不在重复配环境 2525

7、八股文总结 2144

8、小迪笔记 2132

9、Spring Boot 最核心的27个注解，你了解多少？ 2053

10、Yolov8详解与实战 1902

客服QQ 1913284695