Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
一个小示例告诉你Python语言的优雅之处
Jul 04 Python
编写Python的web框架中的Model的教程
Apr 29 Python
python实现中文输出的两种方法
May 09 Python
python中子类继承父类的__init__方法实例
Dec 15 Python
python实现字符串连接的三种方法及其效率、适用场景详解
Jan 13 Python
Django 添加静态文件的两种实现方法(必看篇)
Jul 14 Python
python中 logging的使用详解
Oct 25 Python
Python 字符串换行的多种方式
Sep 06 Python
在mac下查找python包存放路径site-packages的实现方法
Nov 06 Python
Python登录系统界面实现详解
Jun 25 Python
Python创建一个元素都为0的列表实例
Nov 28 Python
Python基于pillow库实现生成图片水印
Sep 14 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
PHP中使用sleep函数实现定时任务实例分享
2014/08/21 PHP
php比较相似字符串的方法
2015/06/05 PHP
php 7新特性之类型申明详解
2017/06/06 PHP
PHP性能分析工具xhprof的安装使用与注意事项
2017/12/19 PHP
实现php删除链表中重复的结点
2018/09/27 PHP
utf-8编码引起js输出中文乱码的解决办法
2010/06/23 Javascript
jquery 插件开发 extjs中的extend用法小结
2013/01/04 Javascript
jQuery插件multiScroll实现全屏鼠标滚动切换页面特效
2015/04/12 Javascript
深入理解JavaScript中的块级作用域、私有变量与模块模式
2016/10/31 Javascript
jquery-mobile表单的创建方法详解
2016/11/23 Javascript
三种方式实现瀑布流布局
2017/02/10 Javascript
在vue中v-bind使用三目运算符绑定class的实例
2018/09/29 Javascript
用Fundebug插件记录网络请求异常的方法
2019/02/21 Javascript
pm2发布node配置文件ecosystem.json详解
2019/05/15 Javascript
vue中动态select的使用方法示例
2019/10/28 Javascript
Python 处理数据的实例详解
2017/08/10 Python
PyQT实现多窗口切换
2018/04/20 Python
pandas值替换方法
2018/07/10 Python
在python shell中运行python文件的实现
2019/12/21 Python
Python如何爬取qq音乐歌词到本地
2020/06/01 Python
python 爬取英雄联盟皮肤并下载的示例
2020/12/04 Python
美国一家全面的在线零售鞋类公司:SHOEBACCA
2017/01/06 全球购物
英国办公用品商店:Office Outlet
2018/04/04 全球购物
C#面试题
2016/05/06 面试题
企业管理培训感言
2014/01/27 职场文书
安全检查管理制度
2014/02/02 职场文书
订货会邀请函
2015/01/31 职场文书
仓管员岗位职责
2015/02/03 职场文书
业务员岗位职责范本
2015/04/03 职场文书
酒店财务经理岗位职责
2015/04/08 职场文书
供应商食品安全承诺书
2015/04/29 职场文书
资金申请报告范文
2015/05/14 职场文书
学历证明范文
2015/06/16 职场文书
python实现简单倒计时功能
2021/04/21 Python
JavaScript如何利用Promise控制并发请求个数
2021/05/14 Javascript
Qt数据库应用之实现图片转pdf
2022/06/01 Java/Android