编程 Python

python数据爬下来保存的位置

Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法，然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地，一般是文件或数据库中，但是文件形式相比要更加简单，如果只是自己写爬虫玩，可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试，基本功能还是可以实现的。花的较多的时间就是正则匹配哪里，因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注：上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容，感谢大家的学习和对三水点靠木的支持。

python数据爬下来保存的位置

- Author -

十一月的萧邦。

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python使用functools模块中的partial函数生成偏函数

Jul 02 Python

python实现从pdf文件中提取文本,并自动翻译的方法

Nov 28 Python

Python数据抓取爬虫代理防封IP方法

Dec 23 Python

利用pyinstaller打包exe文件的基本教程

May 02 Python

Python+Selenium使用Page Object实现页面自动化测试

Jul 14 Python

python生成requirements.txt的两种方法

Sep 18 Python

python中对_init_的理解及实例解析

Oct 11 Python

Python调用.NET库的方法步骤

Dec 27 Python

tensorflow自定义激活函数实例

Feb 04 Python

Python字符串对齐、删除字符串不需要的内容以及格式化打印字符

Jan 23 Python

对象析构函数__del__在Python中何时使用

Mar 22 Python

Python绘制散点图之可视化神器pyecharts

Jul 07 Python

使用TFRecord存取多个数据案例

Feb 17 #Python

从多个tfrecord文件中无限读取文件的例子

Feb 17 #Python

Python3连接Mysql8.0遇到的问题及处理步骤

Feb 17 #Python

python3连接MySQL8.0的两种方式

Feb 17 #Python

Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析（显卡MX250+CUDA9.0+cudnn）

Feb 17 #Python

Windows下实现将Pascal VOC转化为TFRecords

Feb 17 #Python

tensorflow生成多个tfrecord文件实例

Feb 17 #Python

You might like

如何在PHP中使用Oracle数据库(1)

2006/10/09 PHP

杏林同学录(八)

2006/10/09 PHP

php中多维数组按指定value排序的实现代码

2014/08/19 PHP

Linux下安装PHP MSSQL扩展教程

2014/10/24 PHP

PHP+MySQL实现无极限分类栏目的方法

2015/12/23 PHP

JavaScript高级程序设计

2006/12/29 Javascript

使用EXT实现无刷新动态调用股票信息

2008/11/01 Javascript

JS 遮照层实现代码

2010/03/31 Javascript

jquery限制输入字数,并提示剩余字数实现代码

2012/12/24 Javascript

jQuery根据纬度经度查看地图处理程序

2013/05/08 Javascript

判断及设置浏览器全屏模式

2014/04/20 Javascript

初始Nodejs

2014/11/08 NodeJs

基于javascript实现右下角浮动广告效果

2016/01/08 Javascript

javascript如何创建对象

2016/08/29 Javascript

JavaScript 随机验证码的生成实例代码

2016/09/22 Javascript

Vue.js：使用Vue-Router 2实现路由功能介绍

2017/02/22 Javascript

详解微信小程序中的页面代码中的模板的封装

2017/10/12 Javascript

ant-design-vue 时间选择器赋值默认时间的操作

2020/10/27 Javascript

JS数据类型分类及常用判断方法

2020/11/19 Javascript

[46:44]VG vs TNC Supermajor小组赛B组败者组决赛 BO3 第一场 6.2

2018/06/03 DOTA

使用Python将Mysql的查询数据导出到文件的方法

2019/02/25 Python

基于Python实现用户管理系统

2019/02/26 Python

浅谈keras中的batch_dot,dot方法和TensorFlow的matmul

2020/06/18 Python

html5 touch事件实现触屏页面上下滑动(二)

2016/03/10 HTML / CSS

html5开发三八女王节表白神器

2018/03/07 HTML / CSS

世界上最大的家庭自动化公司：Smarthome

2017/12/20 全球购物

毕业生自荐书

2013/12/18 职场文书

犯错检讨书

2014/02/21 职场文书

西式婚礼主持词

2014/03/13 职场文书

土建专业大学生自荐信范文

2014/04/09 职场文书

2014年党支部承诺书

2014/05/30 职场文书

小学竞选班长演讲稿

2014/09/09 职场文书

春节随笔

2015/08/15 职场文书

大学生学习十八届五中全会精神心得体会

2016/01/05 职场文书

Python实现学生管理系统（面向对象版）

2021/06/24 Python

html5调用摄像头实例代码

2021/06/28 HTML / CSS