Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
python函数参数*args**kwargs用法实例
Dec 04 Python
详解Python的Flask框架中生成SECRET_KEY密钥的方法
Jun 07 Python
Python内置函数OCT详解
Nov 09 Python
Python3.5 创建文件的简单实例
Apr 26 Python
python发送告警邮件脚本
Sep 17 Python
Python小工具之消耗系统指定大小内存的方法
Dec 03 Python
Python嵌套式数据结构实例浅析
Mar 05 Python
Python中format()格式输出全解
Apr 12 Python
python 批量添加的button 使用同一点击事件的方法
Jul 17 Python
python实现处理mysql结果输出方式
Apr 09 Python
Python字符串三种格式化输出
Sep 17 Python
python调用jenkinsAPI构建jenkins,并传递参数的示例
Dec 09 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
5.PHP的其他功能
2006/10/09 PHP
9个比较实用的php代码片段
2016/03/15 PHP
JavaScript 基础知识 被自己遗忘的
2009/10/15 Javascript
Javascript变量函数浅析
2011/09/02 Javascript
基于jquery的跟随屏幕滚动代码
2012/07/24 Javascript
JS刷新当前页面的几种方法总结
2013/12/24 Javascript
javascript包装对象实例分析
2015/03/27 Javascript
javascript省市级联功能实现方法实例详解
2015/10/20 Javascript
js提交form表单,并传递参数的实现方法
2016/05/25 Javascript
js 获取元素所有兄弟节点的实现方法
2016/09/06 Javascript
assert()函数用法总结(推荐)
2017/01/25 Javascript
使用原生js写ajax实例(推荐)
2017/05/31 Javascript
react在安卓中输入框被手机键盘遮挡问题的解决方法
2018/09/03 Javascript
jquery拖拽自动排序插件使用方法详解
2020/07/20 jQuery
puppeteer实现html截图的示例代码
2019/01/10 Javascript
VUE DEMO之模拟登录个人中心页面之间数据传值实例
2019/10/31 Javascript
解决elementui表格操作列自适应列宽
2020/12/28 Javascript
Python遍历目录中的所有文件的方法
2016/07/08 Python
python实现给微信公众号发送消息的方法
2017/06/30 Python
python如何为被装饰的函数保留元数据
2018/03/21 Python
python使用socket创建tcp服务器和客户端
2018/04/12 Python
用TensorFlow实现戴明回归算法的示例
2018/05/02 Python
python中in在list和dict中查找效率的对比分析
2018/05/04 Python
python3.x提取中文的正则表达式示例代码
2019/07/23 Python
浅谈Python中threading join和setDaemon用法及区别说明
2020/05/02 Python
Python matplotlib读取excel数据并用for循环画多个子图subplot操作
2020/07/14 Python
详解使用canvas保存网页为pdf文件支持跨域
2018/11/23 HTML / CSS
Html5踩坑记之mandMobile使用小记
2020/04/02 HTML / CSS
西班牙美妆电商:Perfume’s Club(有中文站)
2018/08/08 全球购物
Hurley官方网站:扎根于海滩生活方式的全球青年文化品牌
2020/05/18 全球购物
某科技软件测试面试题
2013/05/19 面试题
护理专业毕业生自荐信范文
2014/01/05 职场文书
群众路线批评与自我批评
2014/02/06 职场文书
医学生求职信
2014/07/01 职场文书
2014年预备党员学习新党章思想汇报
2014/09/15 职场文书
毕业班工作总结
2015/08/10 职场文书