python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python海龟绘图实例教程
Jul 24 Python
python搭建微信公众平台
Feb 09 Python
Python栈算法的实现与简单应用示例
Nov 01 Python
TensorFlow实现随机训练和批量训练的方法
Apr 28 Python
Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】
Dec 05 Python
python3 实现验证码图片切割的方法
Dec 07 Python
把pandas转换int型为str型的方法
Jan 29 Python
Python爬虫使用代理IP的实现
Oct 27 Python
使用python远程操作linux过程解析
Dec 04 Python
解决keras加入lambda层时shape的问题
Jun 11 Python
Python爬虫回测股票的实例讲解
Jan 22 Python
python 实现IP子网计算
Feb 18 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
CodeIgniter php mvc框架 中国网站
2008/05/26 PHP
浅谈Eclipse PDT调试PHP程序
2014/06/09 PHP
PHP SPL标准库中的常用函数介绍
2015/05/11 PHP
使用PHP+AJAX让WordPress动态加载文章的教程
2015/12/11 PHP
jQuery获取地址栏参数插件(模仿C#)
2010/10/26 Javascript
js获取对象为null的解决方法
2013/11/21 Javascript
高性能JavaScript DOM编程(1)
2015/08/11 Javascript
js阻止浏览器默认行为触发的通用方法(推荐)
2016/05/15 Javascript
JS中SetTimeout和SetInterval使用初探
2017/03/23 Javascript
微信小程序实现换肤功能
2018/03/14 Javascript
微信小程序网络封装(简单高效)
2018/08/06 Javascript
JS/HTML5游戏常用算法之碰撞检测 像素检测算法实例详解
2018/12/12 Javascript
Vue基本使用之对象提供的属性功能
2019/04/30 Javascript
jQuery位置选择器用法实例分析
2019/06/28 jQuery
基于canvas实现手写签名(vue)
2020/05/21 Javascript
vue中解决拖拽改变存在iframe的div大小时卡顿问题
2020/07/22 Javascript
基于python的字节编译详解
2017/09/20 Python
Pandas 对Dataframe结构排序的实现方法
2018/04/10 Python
Sanic框架应用部署方法详解
2018/07/18 Python
python中的tcp示例详解
2018/12/09 Python
Python 实现的 Google 批量翻译功能
2019/08/26 Python
Django静态资源部署404问题解决方案
2020/05/11 Python
Python实现自动签到脚本的示例代码
2020/08/19 Python
Python爬虫自动化爬取b站实时弹幕实例方法
2021/01/26 Python
英国网上自行车商店:Tredz Bikes
2019/10/29 全球购物
公司清洁工岗位职责
2013/12/14 职场文书
市场部管理制度
2014/02/02 职场文书
2014年健康教育实施方案
2014/02/17 职场文书
应届大学生自荐书
2014/06/17 职场文书
党员干部群众路线教育实践活动个人对照检查材料
2014/09/23 职场文书
个人四风问题对照检查材料
2014/09/26 职场文书
给老师的一封感谢信
2015/01/20 职场文书
运动会新闻稿
2015/07/17 职场文书
MySQL连接查询你真的学会了吗?
2021/06/02 MySQL
总结一下关于在Java8中使用stream流踩过的一些坑
2021/06/24 Java/Android
怎么禁用Win11输入法 最新Win11输入法关闭教程
2022/08/05 数码科技