Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
python对字典进行排序实例
Sep 25 Python
python实现将内容分行输出
Nov 05 Python
flask + pymysql操作Mysql数据库的实例
Nov 13 Python
通过Python 获取Android设备信息的轻量级框架
Dec 18 Python
python实现聚类算法原理
Feb 12 Python
python3.X 抓取火车票信息【修正版】
Jun 19 Python
Python版名片管理系统
Nov 30 Python
使用CodeMirror实现Python3在线编辑器的示例代码
Jan 14 Python
用python给自己做一款小说阅读器过程详解
Jul 11 Python
基于django ManyToMany 使用的注意事项详解
Aug 09 Python
使用jupyter notebook将文件保存为Markdown,HTML等文件格式
Apr 14 Python
Python2.x与3​​.x版本有哪些区别
Jul 09 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
php cookie的操作实现代码(登录)
2010/12/29 PHP
PHP学习散记_编码(json_encode 中文不显示)
2011/11/10 PHP
工厂模式在Zend Framework中应用介绍
2012/07/10 PHP
smarty 缓存控制前的页面静态化原理
2013/03/15 PHP
php基于双向循环队列实现历史记录的前进后退等功能
2015/08/08 PHP
PHP SFTP实现上传下载功能
2017/07/26 PHP
TP5(thinkPHP5)框架使用ajax实现与后台数据交互的方法小结
2020/02/10 PHP
JavaScript 对Cookie 操作的封装小结
2009/12/31 Javascript
jquery中this的使用说明
2010/09/06 Javascript
基于jQuery的仿flash的广告轮播代码
2010/11/04 Javascript
jQuery+css3实现Ajax点击后动态删除功能的方法
2015/08/10 Javascript
Json解析的方法小结
2016/06/22 Javascript
深入剖析JavaScript面向对象编程
2016/07/12 Javascript
javascript轮播图算法
2016/10/21 Javascript
Web开发中客户端的跳转与服务器端的跳转的区别
2017/03/05 Javascript
layer弹窗插件操作方法详解
2017/05/19 Javascript
js 判断一个数字是不是2的n次方幂的实例
2017/11/26 Javascript
解决Vue2.0中使用less给元素添加背景图片出现的问题
2018/09/03 Javascript
vue发送ajax请求详解
2018/10/09 Javascript
使用jQuery实现购物车
2020/10/29 jQuery
[00:10]DOTA2全国高校联赛速递
2018/05/30 DOTA
[40:55]Liquid vs LGD 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
[42:56]VGJ.S vs Serenity 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
在Python的struct模块中进行数据格式转换的方法
2015/06/17 Python
Python的Tkinter点击按钮触发事件的例子
2019/07/19 Python
python实现DEM数据的阴影生成的方法
2019/07/23 Python
用python介绍4种常用的单链表翻转的方法小结
2020/02/24 Python
python实现测试工具(二)——简单的ui测试工具
2020/10/19 Python
使用HTML5 Geolocation实现一个距离追踪器
2018/04/09 HTML / CSS
JACK & JONES瑞典官方网站:杰克琼斯欧式风格男装
2017/12/23 全球购物
意大利拉斐尔时尚购物网:Raffaello Network(支持中文)
2018/11/09 全球购物
给分销商的致歉信
2014/01/14 职场文书
小学毕业典礼演讲稿
2014/09/09 职场文书
互联网创业商业模式以及赚钱法则有哪些?
2019/10/12 职场文书
weblogic服务建立数据源连接测试更新mysql驱动包的问题及解决方法
2022/01/22 MySQL
python 单机五子棋对战游戏
2022/04/28 Python