Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
Python时间模块datetime、time、calendar的使用方法
Jan 13 Python
Python IDLE 错误:IDLE''s subprocess didn''t make connection 的解决方案
Feb 13 Python
基于python实现在excel中读取与生成随机数写入excel中
Jan 04 Python
python的staticmethod与classmethod实现实例代码
Feb 11 Python
pytz格式化北京时间多出6分钟问题的解决方法
Jun 21 Python
Python Django切换MySQL数据库实例详解
Jul 16 Python
Python利用PyExecJS库执行JS函数的案例分析
Dec 18 Python
python 串口读取+存储+输出处理实例
Dec 26 Python
python numpy库linspace相同间隔采样的实现
Feb 25 Python
Python过滤掉numpy.array中非nan数据实例
Jun 08 Python
DRF框架API版本管理实现方法解析
Aug 21 Python
Python Socket多线程并发原理及实现
Dec 11 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
使用zend studio for eclipse不能激活代码提示功能的解决办法
2009/10/11 PHP
php 智能404跳转代码,适合换域名没改变目录的网站
2010/06/04 PHP
解析php中const与define的应用区别
2013/06/18 PHP
动态加载iframe
2006/06/16 Javascript
解决FLASH需要点击激活的代码
2006/12/20 Javascript
javascript 日期时间函数(经典+完善+实用)
2009/05/27 Javascript
javascript 强制刷新页面的实现代码
2009/12/13 Javascript
Javascript Ajax异步读取RSS文档具体实现
2013/12/12 Javascript
Node.js中的缓冲与流模块详细介绍
2015/02/11 Javascript
AngularJS轻松实现双击排序的功能
2016/08/30 Javascript
从零学习node.js之mysql数据库的操作(五)
2017/02/24 Javascript
Vue-Router2.X多种路由实现方式总结
2018/02/09 Javascript
修改node.js默认的npm安装目录实例
2018/05/15 Javascript
浅谈微信小程序flex布局基础
2018/09/10 Javascript
vue项目中常见问题及解决方案(推荐)
2019/10/21 Javascript
JS删除数组指定值常用方法详解
2020/06/04 Javascript
浅谈Vue 函数式组件的使用技巧
2020/06/16 Javascript
[12:36]《DOTA2》国服注册与激活指南全攻略
2013/04/28 DOTA
[01:24]DOTA2上海特锦赛OG战队抵达 专车接机入驻总统套房
2016/02/23 DOTA
Python中用Spark模块的使用教程
2015/04/13 Python
Python中atexit模块的基本使用示例
2015/07/08 Python
解决Python中list里的中文输出到html模板里的问题
2018/12/17 Python
Django框架之中间件MiddleWare的实现
2019/12/30 Python
PyTorch中的Variable变量详解
2020/01/07 Python
python使用多线程查询数据库的实现示例
2020/08/17 Python
解决Python安装cryptography报错问题
2020/09/03 Python
德国圣伯纳德草药屋:Kräuterhaus Sanct Bernhard(有中文站)
2018/08/05 全球购物
自荐信怎么写好
2013/11/11 职场文书
业务副厂长岗位职责
2014/01/03 职场文书
四年级下册教学反思
2014/02/01 职场文书
小学生我的梦想演讲稿
2014/08/21 职场文书
街道党工委党的群众路线教育实践活动对照检查材料思想汇报
2014/10/05 职场文书
2015年乡镇环保工作总结
2015/04/22 职场文书
2016年禁毒宣传活动总结
2016/04/05 职场文书
Axios取消重复请求的方法实例详解
2021/06/15 Javascript
Vue vee-validate插件的简单使用
2021/06/22 Vue.js