Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
gearman的安装启动及python API使用实例
Jul 08 Python
Python的Django框架安装全攻略
Jul 15 Python
Python爬虫DNS解析缓存方法实例分析
Jun 02 Python
python运行其他程序的实现方法
Jul 14 Python
python3 pillow生成简单验证码图片的示例
Sep 19 Python
python中for用来遍历range函数的方法
Jun 08 Python
python 实现查找文件并输出满足某一条件的数据项方法
Jun 12 Python
python安装requests库的实例代码
Jun 25 Python
python对矩阵进行转置的2种处理方法
Jul 17 Python
详解Python图像处理库Pillow常用使用方法
Sep 02 Python
使用python无账号无限制获取企查查信息的实例代码
Apr 17 Python
python中pandas.read_csv()函数的深入讲解
Mar 29 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
一个简单的自动发送邮件系统(二)
2006/10/09 PHP
《PHP边学边教》(02.Apache+PHP环境配置――下篇)
2006/12/13 PHP
PHP 工厂模式使用方法
2010/05/18 PHP
php数据类型判断函数有哪些
2013/09/23 PHP
在PHP中使用X-SendFile头让文件下载更快
2014/06/01 PHP
PHPExcel简单读取excel文件示例
2016/05/26 PHP
基于jquery1.4.2的仿flash超炫焦点图播放效果
2010/04/20 Javascript
jQuery EasyUI API 中文文档 - Pagination分页
2011/09/29 Javascript
js querySelector和getElementById通过id获取元素的区别
2012/04/20 Javascript
jQuery实现用方向键控制层的上下左右移动
2013/01/13 Javascript
location对象的属性和方法应用(解析URL)
2013/04/12 Javascript
JS 仿腾讯发表微博的效果代码
2013/12/25 Javascript
jQuery表单美化插件jqTransform使用详解
2015/04/12 Javascript
6种javascript显示当前系统时间代码
2015/12/01 Javascript
jquery插件Jplayer使用方法简析
2016/04/22 Javascript
浅谈Javascript中的函数、this以及原型
2016/10/09 Javascript
微信小程序 rpx 尺寸单位详细介绍
2016/10/13 Javascript
浅谈Node.js 沙箱环境
2018/05/15 Javascript
[02:34]肉山说——泡妞篇
2014/09/16 DOTA
Python实现windows下模拟按键和鼠标点击的方法
2015/03/13 Python
django初始化数据库的实例
2018/05/27 Python
Python动态强类型解释型语言原理解析
2020/03/25 Python
Python学习工具jupyter notebook安装及用法解析
2020/10/23 Python
45个非常奇妙的CSS3 特性应用示例
2012/01/01 HTML / CSS
拉丁舞学习者的自我评价
2013/10/27 职场文书
财务工作者先进事迹材料
2014/01/17 职场文书
家长评语大全
2014/01/22 职场文书
艺术节主持词
2014/04/02 职场文书
洗手间标语
2014/06/23 职场文书
祖国在我心中演讲稿600字
2014/09/23 职场文书
党的群众路线教育实践活动先进个人材料
2014/12/24 职场文书
员工工作能力评语
2014/12/31 职场文书
《圆的周长》教学反思
2016/02/17 职场文书
Python time库的时间时钟处理
2021/05/02 Python
让文件路径提取变得更简单的Python Path库
2021/05/27 Python
Python函数对象与闭包函数
2022/04/13 Python