Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python通过pil为png图片填充上背景颜色的方法
Mar 17 Python
python使用xmlrpclib模块实现对百度google的ping功能
Jun 02 Python
jupyter安装小结
Mar 13 Python
Python编码类型转换方法详解
Jul 01 Python
python中的闭包函数
Feb 09 Python
Python打印输出数组中全部元素
Mar 13 Python
详解python中Numpy的属性与创建矩阵
Sep 10 Python
Python3.5内置模块之random模块用法实例分析
Apr 26 Python
基于pytorch 预训练的词向量用法详解
Jan 06 Python
Python实现投影法分割图像示例(一)
Jan 17 Python
使用Python实现音频双通道分离
Dec 25 Python
python模块内置属性概念及实例
Feb 18 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
十天学会php之第九天
2006/10/09 PHP
搜索引擎技术核心揭密
2006/10/09 PHP
codeigniter框架The URI you submitted has disallowed characters错误解决方法
2014/05/06 PHP
ThinkPHP框架实现session跨域问题的解决方法
2014/07/01 PHP
php文件类型MIME对照表(比较全)
2016/10/07 PHP
Laravel框架自定义分页样式操作示例
2020/01/26 PHP
RR vs IO BO3 第一场2.13
2021/03/10 DOTA
[对联广告] JS脚本类
2006/08/27 Javascript
javascript textContent与innerText的异同分析
2010/10/22 Javascript
js中parseFloat(参数1,参数2)定义和用法及注意事项
2013/01/27 Javascript
JS.getTextContent(element,preformatted)使用介绍
2013/09/21 Javascript
javascript面向对象特性代码实例
2014/06/12 Javascript
javascript实现网页子页面遍历回调的方法(涉及 window.frames、递归函数、函数上下文)
2015/07/27 Javascript
BOM系列第一篇之定时器setTimeout和setInterval
2016/08/17 Javascript
js 提交form表单和设置form表单请求路径的实现方法
2016/10/25 Javascript
纯js实现html转pdf的简单实例(推荐)
2017/02/16 Javascript
深入理解Vue2.x的虚拟DOM diff原理
2017/09/27 Javascript
详解javascript 正则表达式之分组与前瞻匹配
2018/05/30 Javascript
EXTJS7实现点击拖拉选择文本
2020/12/17 Javascript
python 图片验证码代码
2008/12/07 Python
python 解析XML python模块xml.dom解析xml实例代码
2014/02/07 Python
利用python求相邻数的方法示例
2017/08/18 Python
Python实现二维曲线拟合的方法
2018/12/29 Python
用Python实现将一张图片分成9宫格的示例
2019/07/05 Python
Python pickle模块实现对象序列化
2019/11/22 Python
python实现密码验证合格程序的思路详解
2020/06/01 Python
解决Keyerror ''acc'' KeyError: ''val_acc''问题
2020/06/18 Python
Selenium及python实现滚动操作多种方法
2020/07/21 Python
python脚本第一行如何写
2020/08/30 Python
CSS3中的opacity属性使用教程
2015/08/19 HTML / CSS
Giglio英国站:意大利奢侈品购物网
2018/03/06 全球购物
英国领先的男装设计师服装独立零售商:Repertoire Fashion
2020/10/19 全球购物
护士自我评价
2014/02/01 职场文书
入党积极分子自我鉴定范文
2014/03/25 职场文书
公司财务会计主管应聘求职信
2014/09/26 职场文书
反对四风自我剖析材料
2014/10/07 职场文书