python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
简单理解Python中基于生成器的状态机
Apr 13 Python
简单解析Django框架中的表单验证
Jul 17 Python
django模板语法学习之include示例详解
Dec 17 Python
Python字符串拼接六种方法介绍
Dec 18 Python
python实现画圆功能
Jan 25 Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 Python
python opencv 批量改变图片的尺寸大小的方法
Jun 28 Python
Python实现串口通信(pyserial)过程解析
Sep 25 Python
如何在mac环境中用python处理protobuf
Dec 25 Python
pytorch 修改预训练model实例
Jan 18 Python
利用python中的matplotlib打印混淆矩阵实例
Jun 16 Python
python 爬虫爬取京东ps4售卖情况
Dec 18 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
一漂亮的PHP图片验证码实例
2014/03/21 PHP
PHP读取CSV大文件导入数据库的实例
2017/07/24 PHP
redis+php实现微博(三)微博列表功能详解
2019/09/23 PHP
PHP中abstract(抽象)、final(最终)和static(静态)原理与用法详解
2020/06/05 PHP
jquery实现的点击翻书效果代码
2015/11/04 Javascript
jQuery简单自定义图片轮播插件及用法示例
2016/11/21 Javascript
无阻塞加载js,防止因js加载不了影响页面显示的问题
2016/12/18 Javascript
js字符串与Unicode编码互相转换
2017/05/17 Javascript
Vue父子模版传值及组件传值的三种方法
2017/11/27 Javascript
详解weex默认webpack.config.js改造
2018/01/08 Javascript
使用zrender.js绘制体温单效果
2019/10/31 Javascript
在博客园博文中添加自定义右键菜单的方法详解
2020/02/05 Javascript
Vue 一键清空表单的实现方法
2020/02/07 Javascript
js数组相减简单示例【删除a数组所有与b数组相同元素】
2020/03/04 Javascript
Vue初始化中的选项合并之initInternalComponent详解
2020/06/11 Javascript
解决vant框架做H5时踩过的坑(下拉刷新、上拉加载等)
2020/11/11 Javascript
小程序角标的添加及绑定购物车数量进行实时更新的实现代码
2020/12/07 Javascript
vue-quill-editor插入图片路径太长问题解决方法
2021/01/08 Vue.js
Python删除windows垃圾文件的方法
2015/07/14 Python
Python实现字典的遍历与排序功能示例
2017/12/23 Python
python合并同类型excel表格的方法
2018/04/01 Python
利用Pandas 创建空的DataFrame方法
2018/04/08 Python
Python多继承顺序实例分析
2018/05/26 Python
有关Python的22个编程技巧
2018/08/29 Python
Django中间件基础用法详解
2019/07/18 Python
python用match()函数爬数据方法详解
2019/07/23 Python
jupyter修改文件名方式(TensorFlow)
2020/04/21 Python
Django celery异步任务实现代码示例
2020/11/26 Python
一款超酷的js+css3实现的3D标签云特效兼容ie7/8/9
2013/11/18 HTML / CSS
如何使用localstorage代替cookie实现跨域共享数据问题
2018/04/18 HTML / CSS
澳大利亚礼品卡商店:Gift Card Store
2019/06/24 全球购物
餐饮管理自我介绍信
2014/01/15 职场文书
店长职务说明书
2014/02/04 职场文书
家长反馈意见及建议
2015/06/03 职场文书
2015初一年级组工作总结
2015/07/24 职场文书
TaiShan 200服务器安装Ubuntu 18.04的图文教程
2022/06/28 Servers