Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
Python XML RPC服务器端和客户端实例
Nov 22 Python
Python 列表list使用介绍
Nov 30 Python
详解Python中for循环的使用
Apr 14 Python
Python中规范定义命名空间的一些建议
Jun 04 Python
Python中字符串的修改及传参详解
Nov 30 Python
Python实现PS图像调整之对比度调整功能示例
Jan 26 Python
python 读取鼠标点击坐标的实例
Dec 29 Python
简单瞅瞅Python vars()内置函数的实现
Sep 27 Python
Python运行DLL文件的方法
Jan 17 Python
python3用PyPDF2解析pdf文件,用正则匹配数据方式
May 12 Python
利用PyQt5+Matplotlib 绘制静态/动态图的实现代码
Jul 13 Python
python之django路由和视图案例教程
Jul 26 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
通过JavaScript或PHP检测Android设备的代码
2011/03/09 PHP
php文档更新介绍
2011/07/22 PHP
php5.5新数组函数array_column使用
2013/07/08 PHP
PHP中如何防止外部恶意提交调用ajax接口
2016/04/11 PHP
PHP分享图片的生成方法
2018/04/25 PHP
Laravel中正确地返回HTTP状态码方法示例
2019/09/10 PHP
调试Javascript代码(浏览器F12及VS中debugger关键字)
2013/01/25 Javascript
JavaScript splice()方法详解
2020/09/22 Javascript
Node.js 学习笔记之简介、安装及配置
2015/03/03 Javascript
JS中的进制转换以及作用
2016/06/26 Javascript
在vue.js中抽出公共代码的方法示例
2017/06/08 Javascript
JS实现简单表格排序操作示例
2017/10/07 Javascript
p5.js入门教程之键盘交互
2018/03/19 Javascript
Canvas实现微信红包照片效果
2018/08/21 Javascript
操作按钮悬浮固定在微信小程序底部的实现代码
2019/08/02 Javascript
微信小程序文章详情功能完整实例
2020/06/03 Javascript
[02:49]2014DOTA2电竞也是体育项目! 势要把荣誉带回中国!
2014/07/20 DOTA
Python实现列表删除重复元素的三种常用方法分析
2017/11/24 Python
python如何创建TCP服务端和客户端
2018/08/26 Python
python Canny边缘检测算法的实现
2020/04/24 Python
Python描述数据结构学习之哈夫曼树篇
2020/09/07 Python
CSS3 text shadow字体阴影效果
2016/01/08 HTML / CSS
多视角3D逼真HTML5水波动画
2016/03/03 HTML / CSS
借助HTML5 Canvas API制作一个简单的猜字游戏
2016/03/25 HTML / CSS
俄罗斯运动鞋商店:Sneakerhead
2018/05/10 全球购物
美国台面电器和厨具品牌:KitchenAid
2019/04/12 全球购物
西安众合通用.net笔试题
2013/03/18 面试题
在DELPHI中调用存储过程和使用内嵌SQL哪种方式更好
2016/11/22 面试题
大学毕业生最详细的自我评价分享
2013/11/18 职场文书
市场营销调查计划书
2014/05/02 职场文书
学生打架检讨书
2014/10/20 职场文书
2016年员工年度考核评语
2015/12/02 职场文书
六年级作文之预言作文
2019/10/25 职场文书
温馨祝福晨语:美丽的一天从我的问候开始
2019/11/28 职场文书
导游词之藏龙百瀑景区
2019/12/30 职场文书
DSP接收机前端设想
2022/04/05 无线电