Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
Python语言技巧之三元运算符使用介绍
Mar 04 Python
跟老齐学Python之集合的关系
Sep 24 Python
python实现清屏的方法
Apr 30 Python
在Python中操作文件之read()方法的使用教程
May 24 Python
Python进度条的制作代码实例
Aug 31 Python
python错误调试及单元文档测试过程解析
Dec 19 Python
python接口自动化如何封装获取常量的类
Dec 24 Python
python利用JMeter测试Tornado的多线程
Jan 12 Python
TensorFlow实现打印每一层的输出
Jan 21 Python
解决pymysql cursor.fetchall() 获取不到数据的问题
May 15 Python
零基础小白多久能学会python
Jun 22 Python
python 实现mysql自动增删分区的方法
Apr 01 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
全国FM电台频率大全 - 22 重庆市
2020/03/11 无线电
php采集中国代理服务器网的方法
2015/06/16 PHP
腾讯CMEM的PHP扩展编译安装方法
2015/09/25 PHP
用PHP的socket实现客户端到服务端的通信实例详解
2017/02/04 PHP
详解php与ethereum客户端交互
2018/04/28 PHP
CI框架网页缓存简单用法分析
2018/12/26 PHP
php xhprof使用实例详解
2019/04/15 PHP
浅析PHP中json_encode与json_decode的区别
2020/07/15 PHP
FireFox JavaScript全局Event对象
2009/06/14 Javascript
ajax页面无刷新 IE下遭遇Ajax缓存导致数据不更新的问题
2012/12/11 Javascript
jquery弹出框的用法示例(2)
2013/08/26 Javascript
制作jquery遮罩层效果导航菜单代码分享
2013/12/25 Javascript
jQuery使用之标记元素属性用法实例
2015/01/19 Javascript
全面了解js中的script标签
2016/07/04 Javascript
javascript验证香港身份证的格式或真实性
2017/02/07 Javascript
JS实现最简单的冒泡排序算法
2017/02/15 Javascript
Angular 4环境准备与Angular cli创建项目详解
2017/05/27 Javascript
Angular中使用better-scroll插件的方法
2018/03/27 Javascript
vue3修改link标签默认icon无效问题详解
2019/10/09 Javascript
稍微学一下Vue的数据响应式(Vue2及Vue3区别)
2019/11/21 Javascript
Python中单、双下划线的区别总结
2017/12/01 Python
网红编程语言Python将纳入高考你怎么看?
2018/06/07 Python
Python将多个list合并为1个list的方法
2018/06/27 Python
python进程间通信Queue工作过程详解
2019/11/01 Python
浅谈PyQt5中异步刷新UI和Python多线程总结
2019/12/13 Python
python 实现人和电脑猜拳的示例代码
2020/03/02 Python
python如何快速生成时间戳
2020/07/21 Python
Python经纬度坐标转换为距离及角度的实现
2020/11/01 Python
美国设计师精美珠宝购物网:Netaya
2016/08/28 全球购物
根叔历年演讲稿
2014/05/20 职场文书
机电一体化专业求职信
2014/07/22 职场文书
保密工作承诺书
2014/08/29 职场文书
2015年度物流工作总结
2015/04/30 职场文书
祝酒词范文
2015/08/12 职场文书
2015年党风廉政建设个人总结
2015/08/18 职场文书
教师学习中国梦心得体会
2016/01/05 职场文书