Python基于pandas爬取网页表格数据


Posted in Python onMay 11, 2020

以网页表格为例:https://www.kuaidaili.com/free/

该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不定的。

今天介绍的黑科技是pandas自带爬虫功能,pd.read_html(),只需传人url,一行代码搞定。

原网页结构如下:

Python基于pandas爬取网页表格数据

python代码如下:

import pandas as pd
url='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0] 
# [0]:表示第一个table,多个table需要指定,如果不指定默认第一个
# 如果没有【0】,输入dataframe格式组成的list
df

输出dataframe格式数据

Python基于pandas爬取网页表格数据

Python基于pandas爬取网页表格数据

再次保存到本地,csv格式,注意中文编码:utf_8_sig

print(type(df))df.to_csv('free ip.csv',mode='a', encoding='utf_8_sig', header=1, index=0)print('done!')

查看csv文件

Python基于pandas爬取网页表格数据

先来了解一下read_html函数的api:

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的参数:

  • io:可以是url、html文本、本地文件等;
  • flavor:解析器;
  • header:标题行;
  • skiprows:跳过的行;
  • attrs:属性,比如 attrs = {'id': 'table'};
  • parse_dates:解析日期

注意:返回的结果是**DataFrame**组成的**list**。

若要dataframe,直接取list【0】

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python爬虫框架scrapy实战之爬取京东商城进阶篇
Apr 24 Python
python读取Excel实例详解
Aug 17 Python
解决Shell执行python文件,传参空格引起的问题
Oct 30 Python
一文带你了解Python中的字符串是什么
Nov 20 Python
浅析python参数的知识点
Dec 10 Python
python装饰器简介---这一篇也许就够了(推荐)
Apr 01 Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 Python
python set集合使用方法解析
Nov 05 Python
Python+numpy实现矩阵的行列扩展方式
Nov 29 Python
使用PyQt5实现图片查看器的示例代码
Apr 21 Python
python实战之一步一步教你绘制小猪佩奇
Apr 22 Python
python 爬取天气网卫星图片
Jun 07 Python
Python调用shell命令常用方法(4种)
May 11 #Python
python中sort sorted reverse reversed函数的区别说明
May 11 #Python
python的reverse函数翻转结果为None的问题
May 11 #Python
Pyecharts地图显示不完成问题解决方案
May 11 #Python
将python字符串转化成长表达式的函数eval实例
May 11 #Python
python函数中将变量名转换成字符串实例
May 11 #Python
Python 字节流,字符串,十六进制相互转换实例(binascii,bytes)
May 11 #Python
You might like
用缓存实现静态页面的测试
2006/12/06 PHP
php面向对象全攻略 (六)__set() __get() __isset() __unset()的用法
2009/09/30 PHP
linux下编译安装memcached服务
2014/08/03 PHP
在WordPress的后台中添加顶级菜单和子菜单的函数详解
2016/01/11 PHP
简单谈谈php浮点数精确运算
2016/03/10 PHP
PHP5.6读写excel表格文件操作示例
2019/02/26 PHP
Js判断CSS文件加载完毕的具体实现
2014/01/17 Javascript
jQuery标签编辑插件Tagit使用指南
2015/04/21 Javascript
JavaScript 封装一个tab效果源码分享
2015/09/15 Javascript
Angular.JS判断复选框checkbox是否选中并实时显示
2016/11/30 Javascript
bootstrapValidator表单验证插件学习
2016/12/30 Javascript
jQuery的ajax中使用FormData实现页面无刷新上传功能
2017/01/16 Javascript
flexslider.js实现移动端轮播
2017/02/05 Javascript
浅谈JavaScript中的apply/call/bind和this的使用
2017/02/26 Javascript
javascript数组去重常用方法实例分析
2017/04/11 Javascript
利用jqgrid实现上移下移单元格功能
2018/11/07 Javascript
Node4-5静态资源服务器实战以及优化压缩文件实例内容
2019/08/29 Javascript
vue 导航守卫和axios拦截器有哪些区别
2020/12/19 Vue.js
python使用pyhook监控键盘并实现切换歌曲的功能
2014/07/18 Python
在Python中操作列表之List.pop()方法的使用
2015/05/21 Python
Python 实现简单的电话本功能
2015/08/09 Python
Python+request+unittest实现接口测试框架集成实例
2018/03/16 Python
pandas 将索引值相加的方法
2018/11/15 Python
python批量识别图片指定区域文字内容
2019/04/30 Python
PyQt5实现简易电子词典
2019/06/25 Python
Python操作Word批量生成合同的实现示例
2020/08/28 Python
英国高级健康和美容产品零售商:Life and Looks
2019/08/01 全球购物
Ajax实现页面无刷新留言效果
2021/03/24 Javascript
党员思想汇报范文
2013/12/30 职场文书
房地产开发计划书
2014/01/10 职场文书
市场营销专业毕业生求职信
2014/03/26 职场文书
2015年医院保卫科工作总结
2015/07/23 职场文书
2016教师党员学习心得体会
2016/01/21 职场文书
Python使用OpenCV和K-Means聚类对毕业照进行图像分割
2021/06/11 Python
JavaScript实现简单计时器
2021/06/22 Javascript
Java虚拟机内存结构及编码实战分享
2022/04/07 Java/Android