Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
python实现随机梯度下降法
Mar 24 Python
Python3 jupyter notebook 服务器搭建过程
Nov 30 Python
使用PyQt4 设置TextEdit背景的方法
Jun 14 Python
python3中rank函数的用法
Nov 27 Python
python2 对excel表格操作完整示例
Feb 23 Python
python利用Excel读取和存储测试数据完成接口自动化教程
Apr 30 Python
python 实现非极大值抑制算法(Non-maximum suppression, NMS)
Oct 15 Python
python中not、and和or的优先级与详细用法介绍
Nov 03 Python
django使用多个数据库的方法实例
Mar 04 Python
numpy数据类型dtype转换实现
Apr 24 Python
用Python创建简易网站图文教程
Jun 11 Python
基于Python实现射击小游戏的制作
Apr 06 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
windows服务器中检测PHP SSL是否开启以及开启SSL的方法
2014/04/25 PHP
PHP动态输出JavaScript代码实例
2015/02/12 PHP
使用GD库生成带阴影文字的图片
2015/03/27 PHP
php图片添加文字水印实现代码
2016/03/15 PHP
PHP不使用内置函数实现字符串转整型的方法示例
2017/07/03 PHP
两种WEB下的模态对话框 (asp.net或js的分别实现)
2009/12/02 Javascript
Js数组的操作push,pop,shift,unshift等方法详细介绍
2012/12/28 Javascript
原生Javascript封装的一个AJAX函数分享
2014/10/11 Javascript
jquery实现点击其他区域时隐藏下拉div和遮罩层的方法
2015/12/23 Javascript
简单实现JavaScript图片切换效果
2016/11/28 Javascript
详解AngularJs HTTP响应拦截器实现登陆、权限校验
2017/04/11 Javascript
vue.js移动端tab组件的封装实践实例
2017/06/30 Javascript
Angular+Bootstrap+Spring Boot实现分页功能实例代码
2017/07/21 Javascript
Swiper自定义分页器使用详解
2017/12/28 Javascript
Javascript 编码约定(编码规范)
2018/03/11 Javascript
dts文件中删除一个node或属性的操作方法
2018/08/05 Javascript
vue添加axios,并且指定baseurl的方法
2018/09/19 Javascript
vue项目中使用AES实现密码加密解密(ECB和CBC两种模式)
2019/08/12 Javascript
Vue中axios拦截器如何单独配置token
2019/12/27 Javascript
将Django框架和遗留的Web应用集成的方法
2015/07/24 Python
分享一个可以生成各种进制格式IP的小工具实例代码
2017/07/28 Python
python使用邻接矩阵构造图代码示例
2017/11/10 Python
pandas实现选取特定索引的行
2018/04/20 Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
2018/11/07 Python
Selenium启动Chrome时配置选项详解
2020/03/18 Python
tensorflow指定CPU与GPU运算的方法实现
2020/04/21 Python
表单button的outline在firefox浏览器下的问题
2012/12/24 HTML / CSS
详解HTML5中的元素与元素
2015/08/17 HTML / CSS
测绘专业大学生职业生涯规划书
2014/02/10 职场文书
电子商务专业学生职业生涯规划
2014/03/07 职场文书
环保建议书作文
2014/03/12 职场文书
财产保全担保书范文
2014/04/01 职场文书
2015年度校学生会工作总结报告
2015/05/23 职场文书
导游词之南京中山陵
2019/11/27 职场文书
Python 如何实现文件自动去重
2021/06/02 Python
Mongo服务重启异常问题的处理方法
2021/07/01 MongoDB