Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python开发的小球完全弹性碰撞游戏代码
Oct 15 Python
Python本地与全局命名空间用法实例
Jun 16 Python
python根据京东商品url获取产品价格
Aug 09 Python
Python上下文管理器和with块详解
Sep 09 Python
python 借助numpy保存数据为csv格式的实现方法
Jul 04 Python
python实现将文件夹下面的不是以py文件结尾的文件都过滤掉的方法
Oct 21 Python
使用python根据端口号关闭进程的方法
Nov 06 Python
了解不常见但是实用的Python技巧
May 23 Python
简单了解python中对象的取反运算符
Jul 01 Python
python多进程使用函数封装实例
May 02 Python
Win10用vscode打开anaconda环境中的python出错问题的解决
May 25 Python
OpenCV全景图像拼接的实现示例
Jun 05 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
PHP cdata 处理(详细介绍)
2013/07/05 PHP
php创建图像具体步骤
2017/03/13 PHP
详解PHP中的 input属性(隐藏 只读 限制)
2017/08/14 PHP
PHP实时统计中文字数和区别
2019/02/28 PHP
获取css样式表内样式的js函数currentStyle(IE),defaultView(FF)
2011/02/14 Javascript
js中将String转换为number以便比较
2014/07/08 Javascript
JS数组的遍历方式for循环与for...in
2014/07/31 Javascript
jQuery实现的AJAX简单弹出层效果代码
2015/11/26 Javascript
jQuery实现图像旋转动画效果
2016/05/29 Javascript
Angularjs---项目搭建图文教程
2016/07/08 Javascript
基于JS实现bookstore静态页面的实例代码
2017/02/22 Javascript
react-router实现按需加载
2017/05/09 Javascript
详解基于vue-router的动态权限控制实现方案
2017/09/28 Javascript
JS实现的文字间歇循环滚动效果完整示例
2018/02/13 Javascript
node.js博客项目开发手记
2018/03/16 Javascript
详解关于微信setData回调函数中的坑
2019/02/18 Javascript
javascript二维数组和对象的深拷贝与浅拷贝实例分析
2019/10/26 Javascript
vue项目中使用eslint+prettier规范与检查代码的方法
2020/01/16 Javascript
Vue中keep-alive 实现后退不刷新并保持滚动位置
2020/03/17 Javascript
[00:27]DOTA2次级职业联赛 - Lilith战队宣传片
2014/12/01 DOTA
Python中urllib2模块的8个使用细节分享
2015/01/01 Python
django使用django-apscheduler 实现定时任务的例子
2019/07/20 Python
django rest framework vue 实现用户登录详解
2019/07/29 Python
PyCharm永久激活方式(推荐)
2020/09/22 Python
使用anaconda安装pytorch的实现步骤
2020/09/03 Python
基于django和dropzone.js实现上传文件
2020/11/24 Python
泰国网上购物:Shopee泰国
2018/09/14 全球购物
彪马土耳其官网:PUMA土耳其
2019/07/14 全球购物
公务员更新知识培训实施方案
2014/03/31 职场文书
学习退步检讨书
2014/09/28 职场文书
群众路线教师自我剖析材料
2014/09/29 职场文书
学校领导干部民主生活会整改方案
2014/09/29 职场文书
2015年信访工作总结
2015/04/07 职场文书
2015年国庆晚会主持词
2015/07/01 职场文书
详解JSON.parse和JSON.stringify用法
2022/02/18 Javascript
mysql sock 文件解析及作用讲解
2022/07/15 MySQL