python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 字符串split的用法分享
Mar 23 Python
python实现从ftp服务器下载文件的方法
Apr 30 Python
python中利用Future对象回调别的函数示例代码
Sep 07 Python
使用django-crontab实现定时任务的示例
Feb 26 Python
python ftp 按目录结构上传下载的实现代码
Sep 12 Python
20行python代码实现人脸识别
May 05 Python
pyQT5 实现窗体之间传值的示例
Jun 20 Python
使用python serial 获取所有的串口名称的实例
Jul 02 Python
django基于存储在前端的token用户认证解析
Aug 06 Python
TensorFlow实现批量归一化操作的示例
Apr 22 Python
Python执行时间的几种计算方法
Jul 31 Python
Python获取指定日期是"星期几"的6种方法
Mar 13 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
PHP时间戳 strtotime()使用方法和技巧
2013/10/29 PHP
mac下安装nginx和php
2013/11/04 PHP
Zend Framework框架教程之Zend_Db_Table_Rowset用法实例分析
2016/03/21 PHP
CI框架实现创建自定义类库的方法
2018/12/25 PHP
Jquery检验手机号是否符合规则并根据手机号检测结果将提交按钮设为不同状态
2015/11/26 Javascript
JavaScript function函数种类详解
2016/02/22 Javascript
Sort()函数的多种用法
2016/03/20 Javascript
jQuery Dialog对话框事件用法实例分析
2016/05/10 Javascript
Vue.js每天必学之指令系统与自定义指令
2016/09/07 Javascript
BootStrap入门教程(一)之可视化布局
2016/09/19 Javascript
KnockoutJS 3.X API 第四章之表单submit、enable、disable绑定
2016/10/10 Javascript
微信小程序通过api接口将json数据展现到小程序示例
2017/01/20 Javascript
微信网页登录逻辑与实现方法
2019/04/29 Javascript
JavaScript迭代器的含义及用法
2019/06/21 Javascript
Vue 按照创建时间和当前时间显示操作(刚刚,几小时前,几天前)
2020/09/10 Javascript
JavaScript实现滚动加载更多
2020/12/27 Javascript
python实现逻辑回归的方法示例
2017/05/02 Python
Python多进程multiprocessing.Pool类详解
2018/04/27 Python
Python统计纯文本文件中英文单词出现个数的方法总结【测试可用】
2018/07/25 Python
python解析json串与正则匹配对比方法
2018/12/20 Python
python 检查是否为中文字符串的方法
2018/12/28 Python
python 列表输出重复值以及对应的角标方法
2019/06/11 Python
Python-Seaborn热图绘制的实现方法
2019/07/15 Python
删除pycharm鼠标右键快捷键打开项目的操作
2021/01/16 Python
python爬虫scrapy框架的梨视频案例解析
2021/02/20 Python
美国在线面料商店:Fashion Fabrics Club
2020/01/31 全球购物
艺术专业大学生自我评价
2013/09/22 职场文书
运动会领导邀请函
2014/01/10 职场文书
消防先进事迹材料
2014/02/10 职场文书
人力资源总监工作说明
2014/03/03 职场文书
财产公证书样本
2014/04/04 职场文书
2014年平安夜寄语
2014/12/08 职场文书
商务宴会祝酒词
2015/08/11 职场文书
我对PyTorch dataloader里的shuffle=True的理解
2021/05/20 Python
go开发alertmanger实现钉钉报警
2021/07/16 Golang
MySQL之select、distinct、limit的使用
2021/11/11 MySQL