python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中pygame的mouse鼠标事件用法实例
Nov 11 Python
Python实现删除文件中含“指定内容”的行示例
Jun 09 Python
Python爬虫实现百度图片自动下载
Feb 04 Python
python 编码规范整理
May 05 Python
python中的常量和变量代码详解
Jul 25 Python
Python实现分段线性插值
Dec 17 Python
python 文本单词提取和词频统计的实例
Dec 22 Python
python3实现表白神器
Apr 09 Python
python实现对图片进行旋转,放缩,裁剪的功能
Aug 07 Python
python list多级排序知识点总结
Oct 23 Python
使用OpenCV获取图片连通域数量,并用不同颜色标记函
Jun 04 Python
Python 的 f-string 可以连接字符串与数字的原因解析
Feb 20 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
php单一接口的实现方法
2015/06/20 PHP
Discuz!X中SESSION机制实例详解
2015/09/23 PHP
PHP架构及原理知识点详解
2019/12/22 PHP
phpStudy vscode 搭建debug调试的教程详解
2020/07/28 PHP
JavaScript DOM学习第四章 getElementByTagNames
2010/02/19 Javascript
JavaScript通过prototype给对象定义属性用法实例
2015/03/23 Javascript
百度地图给map添加右键菜单(判断是否为marker)
2016/03/04 Javascript
jQuery validate验证插件使用详解
2016/05/11 Javascript
JavaScript中的Array 对象(数组对象)
2016/06/02 Javascript
Canvas + JavaScript 制作图片粒子效果
2017/02/08 Javascript
JavaScript实现两个select下拉框选项左移右移
2017/03/09 Javascript
Angular4.x通过路由守卫进行路由重定向实现根据条件跳转到相应的页面(推荐)
2018/05/10 Javascript
jQuery实现提交表单时不提交隐藏div中input的方法
2019/10/08 jQuery
python socket网络编程步骤详解(socket套接字使用)
2013/12/06 Python
python实现简单的socket server实例
2015/04/29 Python
Python的SQLalchemy模块连接与操作MySQL的基础示例
2016/07/11 Python
Python实现Linux中的du命令
2017/06/12 Python
Python3解决棋盘覆盖问题的方法示例
2017/12/07 Python
python操作列表的函数使用代码详解
2017/12/28 Python
tensorflow入门之训练简单的神经网络方法
2018/02/26 Python
python删除字符串中指定字符的方法
2018/08/13 Python
Python 实现递归法解决迷宫问题的示例代码
2020/01/12 Python
美国乡村商店:Plow & Hearth
2016/09/12 全球购物
介绍一下SQL中union,intersect和minus
2012/04/05 面试题
护士毕业自我鉴定
2014/02/07 职场文书
企业安全生产责任书
2014/04/14 职场文书
挂靠协议书范本
2014/04/22 职场文书
质量承诺书怎么写
2014/05/24 职场文书
贫困证明模板(3篇)
2014/09/16 职场文书
无刑事犯罪记录证明范本
2014/09/29 职场文书
逃课打麻将检讨书
2014/10/05 职场文书
新学期主题班会
2015/08/17 职场文书
交通安全学习心得体会
2016/01/18 职场文书
Python数据分析入门之教你怎么搭建环境
2021/05/13 Python
Go语言基础函数基本用法及示例详解
2021/11/17 Golang
ubuntu端向日葵键盘输入卡顿问题及解决
2022/12/24 Servers