python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python with statement 进行文件操作指南
Aug 22 Python
python编写简单爬虫资料汇总
Mar 22 Python
浅析Python中MySQLdb的事务处理功能
Sep 21 Python
Python+Socket实现基于TCP协议的客户与服务端中文自动回复聊天功能示例
Aug 31 Python
Python递归实现汉诺塔算法示例
Mar 19 Python
python生成1行四列全2矩阵的方法
Aug 04 Python
python几种常用功能实现代码实例
Dec 25 Python
Python 中的pygame安装与配置教程详解
Feb 10 Python
Python实现分数序列求和
Feb 25 Python
python 给图像添加透明度(alpha通道)
Apr 09 Python
使用jupyter notebook将文件保存为Markdown,HTML等文件格式
Apr 14 Python
Python的flask接收前台的ajax的post数据和get数据的方法
Apr 12 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
PHP静态调用非静态方法的应用分析
2013/05/02 PHP
Nigma vs Alliance BO5 第五场2.14
2021/03/10 DOTA
js下写一个事件队列操作函数
2010/07/19 Javascript
ExtJS4 组件化编程,动态加载,面向对象,Direct
2011/05/12 Javascript
JavaScript学习笔记记录我的旅程
2012/05/23 Javascript
JavaScript的内存释放问题详解
2015/01/21 Javascript
js的for in循环和java里foreach循环的区别分析
2015/01/28 Javascript
jQuery通过写入cookie实现更换网页背景的方法
2016/04/15 Javascript
解决给dom元素绑定click等事件无效问题的方法
2017/02/17 Javascript
详解nodejs中exports和module.exports的区别
2017/02/17 NodeJs
vue单页应用中如何使用jquery的方法示例
2017/07/27 jQuery
JavaScript 中Date对象的格式化代码方法汇总
2017/09/06 Javascript
微信小程序实现全局搜索代码高亮的示例
2018/03/30 Javascript
深入浅析var,let,const的异同点
2018/08/07 Javascript
vue组件(全局,局部,动态加载组件)
2018/09/02 Javascript
浅谈js中的bind
2019/03/18 Javascript
微信小程序 select 下拉框组件功能
2019/09/09 Javascript
vue 解决mintui弹窗弹起来,底部页面滚动bug问题
2020/11/12 Javascript
Vue3配置axios跨域实现过程解析
2020/11/25 Vue.js
Python使用MYSQLDB实现从数据库中导出XML文件的方法
2015/05/11 Python
Python 爬虫图片简单实现
2017/06/01 Python
Python 反转字符串(reverse)的方法小结
2018/02/20 Python
pandas数值计算与排序方法
2018/04/12 Python
python爬虫之模拟登陆csdn的实例代码
2018/05/18 Python
符合语言习惯的 Python 优雅编程技巧【推荐】
2018/09/25 Python
python中matplotlib条件背景颜色的实现
2019/09/02 Python
pandas to_excel 添加颜色操作
2020/07/14 Python
Python Selenium操作Cookie的实例方法
2021/02/28 Python
公司同意接收函
2014/01/13 职场文书
《恐龙》教学反思
2014/04/27 职场文书
人事文员岗位职责
2015/02/04 职场文书
国庆阅兵观后感
2015/06/15 职场文书
2016抗战胜利71周年红领巾广播稿
2015/12/18 职场文书
公务员的复习计划书,请收下!
2019/07/15 职场文书
MySQL数字类型自增的坑
2021/05/07 MySQL
Python中文分词库jieba(结巴分词)详细使用介绍
2022/04/07 Python