python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 中开发pattern的string模板(template) 实例详解
Apr 01 Python
Python实现二维数组按照某行或列排序的方法【numpy lexsort】
Sep 22 Python
python TCP Socket的粘包和分包的处理详解
Feb 09 Python
python 把文件中的每一行以数组的元素放入数组中的方法
Apr 29 Python
python xlsxwriter创建excel图表的方法
Jun 11 Python
Python多进程原理与用法分析
Aug 21 Python
python安装scipy的方法步骤
Jun 26 Python
Django实现发送邮件功能
Jul 18 Python
python网络爬虫 Scrapy中selenium用法详解
Sep 28 Python
Python 输出详细的异常信息(traceback)方式
Apr 08 Python
安装Anaconda3及使用Jupyter的方法
Oct 27 Python
python如何调用php文件中的函数详解
Dec 29 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
探讨各种PHP字符串函数的总结分析
2013/06/05 PHP
yii2.0整合阿里云oss的示例代码
2017/09/19 PHP
js函数调用常用方法详解
2012/12/03 Javascript
Extjs中RowExpander控件的默认展开问题示例探讨
2014/01/24 Javascript
wap手机图片滑动切换特效无css3元素js脚本编写
2014/07/28 Javascript
JavaScript阻止事件冒泡示例分享
2014/12/28 Javascript
JS实现文字放大效果的方法
2015/03/03 Javascript
JS数组去重(4种方法)
2017/03/27 Javascript
nodejs个人博客开发第一步 准备工作
2017/04/12 NodeJs
关于jQuery.ajax()的jsonp碰上post详解
2017/07/02 jQuery
基于react组件之间的参数传递(详解)
2017/09/05 Javascript
vue中的event bus非父子组件通信解析
2017/10/27 Javascript
JavaScript禁用右键单击优缺点分析
2019/01/20 Javascript
vue组件中iview的modal组件爬坑问题之modal的显示与否应该是使用v-show
2019/04/12 Javascript
小程序input数据双向绑定实现方法
2019/10/17 Javascript
在Docker上部署Python的Flask框架的教程
2015/04/08 Python
python简单分割文件的方法
2015/07/30 Python
python3.0 模拟用户登录,三次错误锁定的实例
2017/11/02 Python
Python与人工神经网络:使用神经网络识别手写图像介绍
2017/12/19 Python
Python标准库笔记struct模块的使用
2018/02/22 Python
python将回车作为输入内容的实例
2018/06/23 Python
Python使用到第三方库PyMuPDF图片与pdf相互转换
2019/05/03 Python
50行Python代码获取高考志愿信息的实现方法
2019/07/23 Python
简单了解python 邮件模块的使用方法
2019/07/24 Python
matplotlib绘制多个子图(subplot)的方法
2019/12/03 Python
使用Python 自动生成 Word 文档的教程
2020/02/13 Python
什么是"引用"?申明和使用"引用"要注意哪些问题?
2016/03/03 面试题
金额转换,阿拉伯数字的金额转换成中国传统的形式如:(¥1011)-> (一千零一拾一元整)输出
2015/05/29 面试题
优秀毕业大学生推荐信
2013/11/13 职场文书
魅力教师事迹材料
2014/01/10 职场文书
小学节能减排倡议书
2014/05/15 职场文书
希特勒的演讲稿
2014/05/23 职场文书
年度评优评先方案
2014/06/03 职场文书
社会体育专业大学生职业生涯规划书
2014/09/17 职场文书
官僚主义现象查摆问题整改措施
2014/10/04 职场文书
MySQL中的隐藏列的具体查看
2021/09/04 MySQL