python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
VSCode下配置python调试运行环境的方法
Apr 06 Python
Python简单实现的代理服务器端口映射功能示例
Apr 08 Python
python处理数据,存进hive表的方法
Jul 04 Python
tensorflow更改变量的值实例
Jul 30 Python
解决Pyinstaller 打包exe文件 取消dos窗口(黑框框)的问题
Jun 21 Python
Python定时任务工具之APScheduler使用方式
Jul 24 Python
Django RBAC权限管理设计过程详解
Aug 06 Python
python 公共方法汇总解析
Sep 16 Python
python图形用户接口实例详解
Dec 16 Python
Pyqt助手安装PyQt5帮助文档过程图解
Nov 20 Python
python如何修改文件时间属性
Feb 05 Python
Python 数据科学 Matplotlib图库详解
Jul 07 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
PHP批量采集下载美女图片的实现代码
2013/06/03 PHP
PHP反射机制用法实例
2014/08/28 PHP
php获取远程文件内容的函数
2015/11/02 PHP
PHP实现将MySQL重复ID二维数组重组为三维数组的方法
2016/08/01 PHP
PHP中SQL查询语句的id=%d解释(推荐)
2016/12/10 PHP
用window.location.href实现刷新另个框架页面
2007/03/07 Javascript
javascript iframe内的函数调用实现方法
2009/07/19 Javascript
window.event快达到全浏览器支持了,以后使用就方便了
2011/11/30 Javascript
javascript游戏开发之《三国志曹操传》零部件开发(四)用地图块拼成大地图
2013/01/23 Javascript
使用jquery+CSS实现控制打印样式
2014/12/31 Javascript
使用javascript实现判断当前浏览器
2015/04/14 Javascript
jQuery UI库中dialog对话框功能使用全解析
2016/04/23 Javascript
JS控制静态页面传递参数并获取参数应用
2016/08/10 Javascript
js利用appendChild对标签进行排序的实现方法
2016/10/16 Javascript
详解为Angular.js内置$http服务添加拦截器的方法
2016/12/20 Javascript
JS实现页面打印(整体、局部)
2017/08/18 Javascript
react中的ajax封装实例详解
2017/10/17 Javascript
JS实现HTML页面中动态显示当前时间完整示例
2018/07/30 Javascript
Vue 实时监听窗口变化 windowresize的两种方法
2018/11/06 Javascript
Python之re操作方法(详解)
2017/06/14 Python
Python MD5加密实例详解
2017/08/02 Python
Python内置random模块生成随机数的方法
2019/05/31 Python
Python的缺点和劣势分析
2019/11/19 Python
在django中使用post方法时,需要增加csrftoken的例子
2020/03/13 Python
基于Python把网站域名解析成ip地址
2020/05/25 Python
如何理解python对象
2020/06/21 Python
Python实现图片查找轮廓、多边形拟合、最小外接矩形代码
2020/07/14 Python
用CSS3和table标签实现一个圆形轨迹的动画的示例代码
2019/01/17 HTML / CSS
html5响应式开发自动计算fontSize的方法
2020/01/13 HTML / CSS
世界最大的票务市场:viagogo
2017/02/16 全球购物
阿玛尼美妆俄罗斯官网:Giorgio Armani Beauty RU
2020/07/19 全球购物
JAVA招聘远程笔试题
2015/07/23 面试题
小学生安全保证书
2014/02/01 职场文书
关爱老人标语
2014/06/21 职场文书
工作期间打牌检讨书范文
2014/11/20 职场文书
小学班主任评语
2014/12/29 职场文书