Python基于pandas爬取网页表格数据


Posted in Python onMay 11, 2020

以网页表格为例:https://www.kuaidaili.com/free/

该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不定的。

今天介绍的黑科技是pandas自带爬虫功能,pd.read_html(),只需传人url,一行代码搞定。

原网页结构如下:

Python基于pandas爬取网页表格数据

python代码如下:

import pandas as pd
url='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0] 
# [0]:表示第一个table,多个table需要指定,如果不指定默认第一个
# 如果没有【0】,输入dataframe格式组成的list
df

输出dataframe格式数据

Python基于pandas爬取网页表格数据

Python基于pandas爬取网页表格数据

再次保存到本地,csv格式,注意中文编码:utf_8_sig

print(type(df))df.to_csv('free ip.csv',mode='a', encoding='utf_8_sig', header=1, index=0)print('done!')

查看csv文件

Python基于pandas爬取网页表格数据

先来了解一下read_html函数的api:

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的参数:

  • io:可以是url、html文本、本地文件等;
  • flavor:解析器;
  • header:标题行;
  • skiprows:跳过的行;
  • attrs:属性,比如 attrs = {'id': 'table'};
  • parse_dates:解析日期

注意:返回的结果是**DataFrame**组成的**list**。

若要dataframe,直接取list【0】

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
haskell实现多线程服务器实例代码
Nov 26 Python
Python使用scrapy采集数据过程中放回下载过大页面的方法
Apr 08 Python
python使用xlrd模块读写Excel文件的方法
May 06 Python
Python入门_浅谈数据结构的4种基本类型
May 16 Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 Python
对Python中plt的画图函数详解
Nov 07 Python
windows下 兼容Python2和Python3的解决方法
Dec 05 Python
Python字典遍历操作实例小结
Mar 05 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
分享8点超级有用的Python编程建议(推荐)
Oct 13 Python
Pytorch学习之torch用法----比较操作(Comparison Ops)
Jun 28 Python
python实现PolynomialFeatures多项式的方法
Jan 06 Python
Python调用shell命令常用方法(4种)
May 11 #Python
python中sort sorted reverse reversed函数的区别说明
May 11 #Python
python的reverse函数翻转结果为None的问题
May 11 #Python
Pyecharts地图显示不完成问题解决方案
May 11 #Python
将python字符串转化成长表达式的函数eval实例
May 11 #Python
python函数中将变量名转换成字符串实例
May 11 #Python
Python 字节流,字符串,十六进制相互转换实例(binascii,bytes)
May 11 #Python
You might like
转生史莱姆:萌王第一次撸串开心到飞起,哥布塔撸串却神似界王神
2018/11/30 日漫
php mssql 分页SQL语句优化 持续影响
2009/04/26 PHP
php使用cookie保存用户登录的用户名实例
2015/01/26 PHP
CodeIgniter辅助之第三方类库third_party用法分析
2016/01/20 PHP
php json转换相关知识(小结)
2018/12/21 PHP
详解php中curl返回false的解决办法
2019/03/18 PHP
JS中彻底删除JSON对象组成的数组中的元素
2020/09/22 PHP
javascript 面向对象继承
2009/11/26 Javascript
Javascript学习笔记1 数据类型
2010/01/11 Javascript
jquer之ajaxQueue简单实现代码
2011/09/15 Javascript
JS来动态的修改url实现对url的增删查改
2014/09/05 Javascript
AngularJS学习笔记之ng-options指令
2015/06/16 Javascript
JavaScript实现获取某个元素相邻兄弟节点的prev与next方法
2016/01/25 Javascript
JS中判断字符串中出现次数最多的字符及出现的次数的简单实例
2016/06/03 Javascript
jQuery  ready方法实现原理详解
2016/10/19 Javascript
Javascript var变量删除原理及实现
2020/08/26 Javascript
[15:58]DOTA2国际邀请赛采访专栏:Tongfu.Sansheng&KingJ,DK.rOtk
2013/08/08 DOTA
Python实现高效求解素数代码实例
2015/06/30 Python
在Django的模型和公用函数中使用惰性翻译对象
2015/07/27 Python
Python基于分水岭算法解决走迷宫游戏示例
2017/09/26 Python
python逆序打印各位数字的方法
2018/06/25 Python
python 上下文管理器及自定义原理解析
2019/11/19 Python
django处理select下拉表单实例(从model到前端到post到form)
2020/03/13 Python
PyCharm 在Windows的有用快捷键详解
2020/04/07 Python
解决c++调用python中文乱码问题
2020/07/29 Python
使用CSS禁止textarea调整大小功能的方法
2015/03/13 HTML / CSS
HTML5 source标签:媒介元素定义媒介资源
2018/01/29 HTML / CSS
街头时尚在线:JESSICABUURMAN
2019/06/16 全球购物
英国健身超市:Fitness Superstore
2019/06/17 全球购物
《爱如茉莉》教后反思
2014/04/12 职场文书
调解书格式范本
2015/05/20 职场文书
2015年度企业工作总结
2015/05/21 职场文书
法定代表人免职证明
2015/06/24 职场文书
升学宴学生致辞
2015/07/27 职场文书
《我是什么》教学反思
2016/02/16 职场文书
Python OpenGL基本配置方式
2022/05/20 Python