python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python每次处理固定个数的字符的方法总结
Jan 29 Python
如何用itertools解决无序排列组合的问题
May 18 Python
python实现远程通过网络邮件控制计算机重启或关机
Feb 22 Python
python SMTP实现发送带附件电子邮件
May 22 Python
解决csv.writer写入文件有多余的空行问题
Jul 06 Python
Python基于递归算法求最小公倍数和最大公约数示例
Jul 27 Python
pytorch 调整某一维度数据顺序的方法
Dec 08 Python
Python文件读写常见用法总结
Feb 22 Python
python实现合并两个排序的链表
Mar 03 Python
对python中GUI,Label和Button的实例详解
Jun 27 Python
python 回溯法模板详解
Feb 26 Python
python flappy bird小游戏分步实现流程
Feb 15 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
在PHP中设置、使用、删除Cookie的解决方法
2013/05/06 PHP
Php无限级栏目分类读取的实现代码
2014/02/19 PHP
php模拟post上传图片实现代码
2016/06/24 PHP
javascript之ESC(第二类混淆)
2007/05/06 Javascript
js实现可兼容IE、FF、Chrome、Opera及Safari的音乐播放器
2015/02/11 Javascript
JavaScript AOP编程实例
2015/06/16 Javascript
JS实现的简单鼠标跟随DiV层效果完整实例
2015/10/31 Javascript
jquery 实现复选框的全选操作实例代码
2017/01/24 Javascript
超全面的vue.js使用总结
2017/02/12 Javascript
微信JS-SDK选取手机照片上传功能
2017/04/21 Javascript
vue页面使用阿里oss上传功能的实例(一)
2017/08/09 Javascript
VUE 解决mode为history页面为空白的问题
2019/11/01 Javascript
微信小程序开发摇一摇功能
2019/11/22 Javascript
vue使用openlayers实现移动点动画
2020/09/24 Javascript
深入讨论Python函数的参数的默认值所引发的问题的原因
2015/03/30 Python
Python遍历目录的4种方法实例介绍
2015/04/13 Python
简介Django中内置的一些中间件
2015/07/24 Python
Python聚类算法之凝聚层次聚类实例分析
2015/11/20 Python
Python生成随机验证码的两种方法
2015/12/22 Python
Python操作MySQL数据库的三种方法总结
2018/01/30 Python
Python实现将Excel转换成为image的方法
2018/10/23 Python
Django框架使用mysql视图操作示例
2019/05/15 Python
django框架基于queryset和双下划线的跨表查询操作详解
2019/12/11 Python
HTML5 HTMLCollection和NodeList的区别详解
2020/04/29 HTML / CSS
Clarks英国官方网站:全球领军鞋履品牌
2016/11/26 全球购物
Wedgwood美国官网:英国骨瓷,精美礼品及家居装饰
2018/02/17 全球购物
意大利独特而优质的家居用品:Fazzini
2018/12/05 全球购物
乐高西班牙官方商店:LEGO Shop ES
2019/12/01 全球购物
TCP/IP的分层模型
2013/10/27 面试题
医护人员英文求职信范文
2013/11/26 职场文书
学前教育毕业生自荐信范文
2013/12/24 职场文书
海飞丝的广告词
2014/03/20 职场文书
审美与表现自我评价
2015/03/09 职场文书
大学军训口号大全
2015/12/24 职场文书
民事调解协议书
2016/03/21 职场文书
Win11 22H2 2022怎么更新? 获得Win1122H22022版本升级技巧
2022/09/23 数码科技