python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python逐行读取文件内容的三种方法
Jan 20 Python
Python中非常实用的一些功能和函数分享
Feb 14 Python
Java Web开发过程中登陆模块的验证码的实现方式总结
May 25 Python
python利用sklearn包编写决策树源代码
Dec 21 Python
详解PyTorch批训练及优化器比较
Apr 28 Python
解决python xlrd无法读取excel文件的问题
Dec 25 Python
使用 PyTorch 实现 MLP 并在 MNIST 数据集上验证方式
Jan 08 Python
解决pycharm同一目录下无法import其他文件
Feb 12 Python
python中使用paramiko模块并实现远程连接服务器执行上传下载功能
Feb 29 Python
删除pycharm鼠标右键快捷键打开项目的操作
Jan 16 Python
Python 线程池模块之多线程操作代码
May 20 Python
Python 游戏大作炫酷机甲闯关游戏爆肝数千行代码实现案例进阶
Oct 16 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
Windows2003 下 MySQL 数据库每天自动备份
2006/12/21 PHP
php强制文件下载而非在浏览器打开的自定义函数分享
2014/05/08 PHP
destoon文章模块调用企业会员资料的方法
2014/08/22 PHP
php使用timthumb生成缩略图的方法
2016/01/22 PHP
超越Jquery_01_isPlainObject分析与重构
2010/10/20 Javascript
JavaScript获得页面base标签中url的方法
2015/04/03 Javascript
javascript省市级联功能实现方法实例详解
2015/10/20 Javascript
如何让一个json文件显示在表格里【实现代码】
2016/05/09 Javascript
Javascript自执行匿名函数(function() { })()的原理浅析
2016/05/15 Javascript
JS作用域深度解析
2016/12/29 Javascript
详解cordova打包成webapp的方法
2017/10/18 Javascript
windows系统下更新nodejs版本的方案
2017/11/24 NodeJs
react redux入门示例
2018/04/19 Javascript
jQuery实现表单动态添加数据并提交的方法
2018/07/19 jQuery
基于AngularJs select绑定数字类型的问题
2018/10/08 Javascript
JS实现的点击按钮图片上下滚动效果示例
2019/01/28 Javascript
Vuepress 搭建带评论功能的静态博客的实现
2019/02/17 Javascript
Vue项目打包压缩的实现(让页面更快响应)
2020/03/10 Javascript
es6函数之严格模式用法实例分析
2020/03/17 Javascript
JavaScript中EventBus实现对象之间通信
2020/10/18 Javascript
Python语言编写电脑时间自动同步小工具
2013/03/08 Python
Python采用socket模拟TCP通讯的实现方法
2014/11/19 Python
Python合并多个装饰器小技巧
2015/04/28 Python
Python输出PowerPoint(ppt)文件中全部文字信息的方法
2015/04/28 Python
Python网络编程基于多线程实现多用户全双工聊天功能示例
2018/04/10 Python
搞定这套Python爬虫面试题(面试会so easy)
2019/04/03 Python
详解Python用三种方式统计词频的方法
2019/07/29 Python
Python代码生成视频的缩略图的实例讲解
2019/12/22 Python
奥地利网上现代灯具和灯饰店:Lampenwelt.at
2018/01/29 全球购物
cf收人广告词大全
2014/03/14 职场文书
学习交流会主持词
2014/04/01 职场文书
《青蛙看海》教学反思
2014/04/23 职场文书
合同纠纷调解书
2015/05/20 职场文书
电台广播稿范文
2015/08/19 职场文书
读《皮囊》有感:理解是对他人的最大的善举
2019/11/14 职场文书
小程序自定义轮播图圆点组件
2022/06/25 Javascript