python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python遍历zip文件输出名称时出现乱码问题的解决方法
Apr 08 Python
python脚本内运行linux命令的方法
Jul 02 Python
Python部署web开发程序的几种方法
May 05 Python
Python语言的变量认识及操作方法
Feb 11 Python
Python实现将json文件中向量写入Excel的方法
Mar 26 Python
python pycharm的安装及其使用
Oct 11 Python
pycharm新建Vue项目的方法步骤(图文)
Mar 04 Python
Django模板获取field的verbose_name实例
May 19 Python
如何在sublime编辑器中安装python
May 20 Python
python获取命令行参数实例方法讲解
Nov 02 Python
python垃圾回收机制原理分析
Apr 13 Python
python自动获取微信公众号最新文章的实现代码
Jul 15 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
PHP中使用glob函数实现一句话删除某个目录下的所有文件
2014/07/22 PHP
使用Laravel中的查询构造器实现增删改查功能
2019/09/03 PHP
jQuery中文入门指南,翻译加实例,jQuery的起点教程
2007/01/13 Javascript
js类中获取外部函数名的方法与代码
2007/09/12 Javascript
很全的显示阴历(农历)日期的js代码
2009/01/01 Javascript
javascript 日历提醒系统( 兼容所有浏览器 )
2009/04/07 Javascript
js getBoundingClientRect() 来获取页面元素的位置
2010/11/25 Javascript
js获取input长度并根据页面宽度设置其大小及居中对齐
2014/08/22 Javascript
AngularJS模板加载用法详解
2016/11/04 Javascript
node.js平台下的mysql数据库配置及连接
2017/03/31 Javascript
vue基于Element构建自定义树的示例代码
2017/09/19 Javascript
jQuery封装animate.css的实例
2018/01/04 jQuery
除Console.log()外更多的Javascript调试命令
2018/01/24 Javascript
实例学习JavaScript读取和写入cookie
2018/01/29 Javascript
vue 自定义 select内置组件
2018/04/10 Javascript
解决vue项目中某一页面不想引用公共组件app.vue的问题
2020/08/14 Javascript
js异步接口并发数量控制的方法示例
2020/11/22 Javascript
详解javascript脚本何时会被执行
2021/02/05 Javascript
[02:40]2018年度DOTA2最佳新人-完美盛典
2018/12/16 DOTA
python3+PyQt5实现支持多线程的页面索引器应用程序
2018/04/20 Python
Pyqt5 实现跳转界面并关闭当前界面的方法
2019/06/19 Python
python3射线法判断点是否在多边形内
2019/06/28 Python
Django框架静态文件处理、中间件、上传文件操作实例详解
2020/02/29 Python
解决Keyerror ''acc'' KeyError: ''val_acc''问题
2020/06/18 Python
使用python修改文件并立即写回到原始位置操作(inplace读写)
2020/06/28 Python
python 获取域名到期时间的方法步骤
2021/02/10 Python
DC Shoes荷兰官方网站:美国极限运动品牌
2019/10/22 全球购物
写给女朋友的道歉信
2014/01/08 职场文书
大型晚会策划方案
2014/02/06 职场文书
通用自荐信范文
2014/03/14 职场文书
工作证明英文模板
2014/10/21 职场文书
蓬莱阁导游词
2015/02/04 职场文书
置业顾问岗位职责
2015/02/09 职场文书
隐形的翅膀观后感
2015/06/10 职场文书
《悬崖边的树》读后感2篇
2019/12/02 职场文书
Oracle 多表查询基本语法实例
2022/04/18 Oracle