python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python完全新手教程
Feb 08 Python
Python 实现淘宝秒杀的示例代码
Jan 02 Python
Python实现PS图像调整黑白效果示例
Jan 25 Python
Python编写一个优美的下载器
Apr 15 Python
Python实现确认字符串是否包含指定字符串的实例
May 02 Python
python矩阵/字典实现最短路径算法
Jan 17 Python
matplotlib实现区域颜色填充
Mar 18 Python
pyqt5 实现多窗口跳转的方法
Jun 19 Python
python算法与数据结构之单链表的实现代码
Jun 27 Python
Python实现K折交叉验证法的方法步骤
Jul 11 Python
Pytorch GPU显存充足却显示out of memory的解决方式
Jan 13 Python
linux centos 7.x 安装 python3.x 替换 python2.x的过程解析
Dec 14 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
PHP中执行cmd命令的方法
2014/10/11 PHP
CodeIgniter记录错误日志的方法全面总结
2016/05/17 PHP
js判断滚动条是否已到页面最底部或顶部实例
2014/11/20 Javascript
20条学习javascript的编程规范的建议
2014/11/28 Javascript
原生js和jQuery写的网页选项卡特效对比
2015/04/27 Javascript
整理JavaScript创建对象的八种方法
2015/11/03 Javascript
jQuery mobile 移动web(4)
2015/12/20 Javascript
学习JavaScript鼠标响应事件
2015/12/25 Javascript
angularjs封装bootstrap时间插件datetimepicker
2016/06/20 Javascript
JS实现的多张图片轮流播放幻灯片效果
2016/07/22 Javascript
详解Vue.js——60分钟组件快速入门(上篇)
2016/12/05 Javascript
详解微信小程序开发之城市选择器 城市切换
2017/01/17 Javascript
jQuery中extend函数简单用法示例
2017/10/11 jQuery
nodejs 生成和导出 word的实例代码
2018/07/31 NodeJs
vue给组件传递不同的值方法
2018/09/29 Javascript
Vue表单提交点击事件只允许点击一次的实例
2020/10/23 Javascript
Python中的yield浅析
2014/06/16 Python
python实现从一组颜色中找出与给定颜色最接近颜色的方法
2015/03/19 Python
简单说明Python中的装饰器的用法
2015/04/24 Python
python3使用urllib模块制作网络爬虫
2016/04/08 Python
python中的常量和变量代码详解
2018/07/25 Python
用Python将mysql数据导出成json的方法
2018/08/21 Python
python 划分数据集为训练集和测试集的方法
2018/12/11 Python
python读取xlsx的方法
2018/12/25 Python
python3实现表白神器
2019/04/09 Python
python super用法及原理详解
2020/01/20 Python
python通过matplotlib生成复合饼图
2020/02/06 Python
canvas绘制圆角头像的实现方法
2019/01/17 HTML / CSS
发现世界上最好的珠宝设计师:JewelStreet
2017/12/17 全球购物
院药学专业个人求职信
2013/09/21 职场文书
《英英学古诗》教学反思
2014/04/11 职场文书
2015年员工工作总结范文
2015/04/08 职场文书
董事长致辞
2015/07/29 职场文书
高质量“欢迎词”
2019/04/03 职场文书
python基础之类属性和实例属性
2021/10/24 Python
海贼王十大逆天果实 魂魂果实上榜,岩浆果实攻击力最强
2022/03/18 日漫