编程 Python

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考，具体如下：

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据，今天记录一下，代码很简单很容易上手。

首先需要安装python3。如果还没有安装，可参考本站python3安装与配置相关文章。

首先需要安装requests和lxml和json三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件，模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

- Author -

包子源

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python函数参数*args**kwargs用法实例

Dec 04 Python

详解Python的Flask框架中生成SECRET_KEY密钥的方法

Jun 07 Python

Python内置函数OCT详解

Nov 09 Python

Python3.5 创建文件的简单实例

Apr 26 Python

python发送告警邮件脚本

Sep 17 Python

Python小工具之消耗系统指定大小内存的方法

Dec 03 Python

Python嵌套式数据结构实例浅析

Mar 05 Python

Python中format()格式输出全解

Apr 12 Python

python 批量添加的button 使用同一点击事件的方法

Jul 17 Python

python实现处理mysql结果输出方式

Apr 09 Python

Python字符串三种格式化输出

Sep 17 Python

python调用jenkinsAPI构建jenkins，并传递参数的示例

Dec 09 Python

python3 实现对图片进行局部切割的方法

Dec 05 #Python

python中强大的format函数实例详解

Dec 05 #Python

python3+opencv3识别图片中的物体并截取的方法

Dec 05 #Python

解决Python3.5+OpenCV3.2读取图像的问题

Dec 05 #Python

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

Dec 05 #Python

对python opencv 添加文字 cv2.putText 的各参数介绍

Dec 05 #Python

Python寻找两个有序数组的中位数实例详解

Dec 05 #Python

You might like

5.PHP的其他功能

2006/10/09 PHP

9个比较实用的php代码片段

2016/03/15 PHP

JavaScript 基础知识被自己遗忘的

2009/10/15 Javascript

Javascript变量函数浅析

2011/09/02 Javascript

基于jquery的跟随屏幕滚动代码

2012/07/24 Javascript

JS刷新当前页面的几种方法总结

2013/12/24 Javascript

javascript包装对象实例分析

2015/03/27 Javascript

javascript省市级联功能实现方法实例详解

2015/10/20 Javascript

js提交form表单,并传递参数的实现方法

2016/05/25 Javascript

js 获取元素所有兄弟节点的实现方法

2016/09/06 Javascript

assert()函数用法总结(推荐)

2017/01/25 Javascript

使用原生js写ajax实例(推荐)

2017/05/31 Javascript

react在安卓中输入框被手机键盘遮挡问题的解决方法

2018/09/03 Javascript

jquery拖拽自动排序插件使用方法详解

2020/07/20 jQuery

puppeteer实现html截图的示例代码

2019/01/10 Javascript

VUE DEMO之模拟登录个人中心页面之间数据传值实例

2019/10/31 Javascript

解决elementui表格操作列自适应列宽

2020/12/28 Javascript

Python遍历目录中的所有文件的方法

2016/07/08 Python

python实现给微信公众号发送消息的方法

2017/06/30 Python

python如何为被装饰的函数保留元数据

2018/03/21 Python

python使用socket创建tcp服务器和客户端

2018/04/12 Python

用TensorFlow实现戴明回归算法的示例

2018/05/02 Python

python中in在list和dict中查找效率的对比分析

2018/05/04 Python

python3.x提取中文的正则表达式示例代码

2019/07/23 Python

浅谈Python中threading join和setDaemon用法及区别说明

2020/05/02 Python

Python matplotlib读取excel数据并用for循环画多个子图subplot操作

2020/07/14 Python

详解使用canvas保存网页为pdf文件支持跨域

2018/11/23 HTML / CSS

Html5踩坑记之mandMobile使用小记

2020/04/02 HTML / CSS

西班牙美妆电商：Perfume’s Club（有中文站）

2018/08/08 全球购物

Hurley官方网站：扎根于海滩生活方式的全球青年文化品牌

2020/05/18 全球购物

某科技软件测试面试题

2013/05/19 面试题

护理专业毕业生自荐信范文

2014/01/05 职场文书

群众路线批评与自我批评

2014/02/06 职场文书

医学生求职信

2014/07/01 职场文书

2014年预备党员学习新党章思想汇报

2014/09/15 职场文书

毕业班工作总结

2015/08/10 职场文书