Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
Python基于有道实现英汉字典功能
Jul 25 Python
CentOS 6.X系统下升级Python2.6到Python2.7 的方法
Oct 12 Python
OpenCV实现人脸识别
Apr 07 Python
python使用PyCharm进行远程开发和调试
Nov 02 Python
一百行python代码将图片转成字符画
Feb 19 Python
PyQt5 加载图片和文本文件的实例
Jun 14 Python
把vgg-face.mat权重迁移到pytorch模型示例
Dec 27 Python
Python socket连接中的粘包、精确传输问题实例分析
Mar 24 Python
聊聊python中的异常嵌套
Sep 01 Python
Python列表嵌套常见坑点及解决方案
Sep 30 Python
Pytest测试框架基本使用方法详解
Nov 25 Python
Python数据模型与Python对象模型的相关总结
Jan 26 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
针对初学PHP者的疑难问答(2)
2006/10/09 PHP
php allow_url_include的应用和解释
2010/04/22 PHP
php生成随机颜色的方法
2014/11/13 PHP
php使用sql server验证连接数据库的方法
2014/12/25 PHP
php中array_unshift()修改数组key注意事项分析
2016/05/16 PHP
深入浅出讲解:php的socket通信原理
2016/12/03 PHP
PHP7导出Excel报ERR_EMPTY_RESPONSE解决方法
2019/04/16 PHP
PHP超低内存遍历目录文件和读取超大文件的方法
2019/05/01 PHP
JQuery AJAX实现目录浏览与编辑的代码
2008/10/21 Javascript
Prototype 学习 工具函数学习($A方法)
2009/07/12 Javascript
javascript getElementsByName()的用法说明
2009/07/31 Javascript
jQuery技巧大放送 学习jquery的朋友可以看下
2009/10/14 Javascript
原生javascript实现图片轮播效果代码
2010/09/03 Javascript
菜鸟学习JavaScript小实验之函数引用
2010/11/17 Javascript
dreamweaver 8实现Jquery自动提示
2014/12/04 Javascript
深入分析JSON编码格式提交表单数据
2015/06/25 Javascript
vue.js从安装到搭建过程详解
2017/03/17 Javascript
NodeJS处理Express中异步错误
2017/03/26 NodeJs
Node之简单的前后端交互(实例讲解)
2017/11/14 Javascript
AngularJS 监听变量变化的实现方法
2018/10/09 Javascript
浅谈vue.watch的触发条件是什么
2020/11/07 Javascript
[48:12]Secret vs Optic Supermajor 胜者组 BO3 第三场 6.4
2018/06/05 DOTA
[05:23]DOTA2-DPC中国联赛2月1日Recap集锦
2021/03/11 DOTA
Django Admin实现上传图片校验功能
2016/03/06 Python
使用python将请求的requests headers参数格式化方法
2019/01/02 Python
用 python 进行微信好友信息分析
2020/11/28 Python
Piercing Pagoda官网:耳环、戒指、项链、手链等
2020/09/28 全球购物
请写出char *p与"零值"比较的if语句
2014/09/24 面试题
建筑自我鉴定
2013/10/19 职场文书
大学生自助营养快餐店创业计划书
2014/01/13 职场文书
违反课堂纪律检讨书
2014/01/19 职场文书
学校总务处领导班子民主生活会对照检查材料思想汇报
2014/09/27 职场文书
检讨书怎么写?
2019/06/21 职场文书
Python编程编写完善的命令行工具
2021/09/15 Python
Python实现打乒乓小游戏
2021/09/25 Python
苹果的回收机器人可以通过拆解iPhone获取大量的金和铜并外公布了环境保护最新进展
2022/04/21 数码科技