Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 Python
Python入门之后再看点什么好?
Mar 05 Python
python爬虫 使用真实浏览器打开网页的两种方法总结
Apr 21 Python
Python实用技巧之列表、字典、集合中根据条件筛选数据详解
Jul 11 Python
Django框架首页和登录页分离操作示例
May 28 Python
PyQt5 多窗口连接实例
Jun 19 Python
python集合是否可变总结
Jun 20 Python
python3实现的zip格式压缩文件夹操作示例
Aug 17 Python
解决Django layui {{}}冲突的问题
Aug 29 Python
关于ZeroMQ 三种模式python3实现方式
Dec 23 Python
Pytest参数化parametrize使用代码实例
Feb 22 Python
python爬虫要用到的库总结
Jul 28 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
解读PHP的Yii框架中请求与响应的处理流程
2016/03/17 PHP
PHP注释语法规范与命名规范详解篇
2018/01/21 PHP
PHP延迟静态绑定的深入讲解
2018/04/02 PHP
用javascript获取textarea中的光标位置
2008/05/06 Javascript
getElementsByTagName vs selectNodes效率 及兼容的selectNodes实现
2010/02/26 Javascript
自写简单JS判断是否已经弹出页面
2010/10/20 Javascript
统计jQuery中各字符串出现次数的工具
2012/05/03 Javascript
JavaScript indexOf方法入门实例(计算指定字符在字符串中首次出现的位置)
2014/10/17 Javascript
jQuery中:text选择器用法实例
2015/01/03 Javascript
javascript解决IE6下hover问题的方法
2015/07/28 Javascript
深入理解node exports和module.exports区别
2016/06/01 Javascript
js改变透明度实现轮播图的算法
2020/08/24 Javascript
JavaScript算法系列之快速排序(Quicksort)算法实例详解
2016/09/04 Javascript
AngularJS实现路由实例
2017/02/12 Javascript
jQuery Autocomplete简介_动力节点Java学院整理
2017/07/17 jQuery
js判断输入框不能为空格或null值的实现方法
2018/03/02 Javascript
vue+element UI实现树形表格带复选框的示例代码
2019/04/16 Javascript
详解key在Vue列表渲染时究竟起到了什么作用
2019/04/20 Javascript
vue 修改 data 数据问题并实时显示操作
2020/09/07 Javascript
[04:52]DOTA2亚洲邀请赛附加赛 TOP10精彩集锦
2015/01/29 DOTA
Python中__name__的使用实例
2015/04/14 Python
简单介绍Python的Django框架的dj-scaffold项目
2015/05/30 Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
2019/08/13 Python
Python 转换RGB颜色值的示例代码
2019/10/13 Python
使用Python给头像加上圣诞帽或圣诞老人小图标附源码
2019/12/25 Python
python实现ip地址的包含关系判断
2020/02/07 Python
python 6.7 编写printTable()函数表格打印(完整代码)
2020/03/25 Python
css和css3弹性盒模型实现元素宽度(高度)自适应
2019/05/15 HTML / CSS
《母亲的恩情》教学反思
2014/02/13 职场文书
2014法制宣传日活动总结
2014/07/09 职场文书
转让协议书范本
2014/09/13 职场文书
离职证明标准格式
2014/09/15 职场文书
2014年财政所工作总结
2014/11/22 职场文书
2015年卫生院健康教育工作总结
2015/07/24 职场文书
2016春季运动会前导词
2015/11/25 职场文书
Mysql数据库按时间点恢复实战记录
2021/06/30 MySQL