Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python爬虫框架Scrapy安装使用步骤
Apr 01 Python
python中去空格函数的用法
Aug 21 Python
Python入门之modf()方法的使用
May 15 Python
Python的collections模块中namedtuple结构使用示例
Jul 07 Python
pandas apply 函数 实现多进程的示例讲解
Apr 20 Python
python多行字符串拼接使用小括号的方法
Mar 19 Python
Python json模块dumps、loads操作示例
Sep 06 Python
PyCharm代码提示忽略大小写设置方法
Oct 28 Python
如何通过python画loss曲线的方法
Jun 26 Python
Django 创建后台,配置sqlite3教程
Nov 18 Python
在PyCharm中遇到pip安装 失败问题及解决方案(pip失效时的解决方案)
Mar 10 Python
浅析Python 责任链设计模式
Sep 11 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
PHP实现Socket服务器的代码
2008/04/03 PHP
php入门学习知识点五 关于php数组的几个基本操作
2011/07/14 PHP
兼容firefox,chrome的网页灰度效果
2011/08/08 PHP
Laravel5中contracts详解
2015/03/02 PHP
JavaScript入门教程(3) js面向对象
2009/01/31 Javascript
js注意img图片的onerror事件的分析
2011/01/01 Javascript
JavaScript控制按钮可用或不可用的方法
2015/04/03 Javascript
jquery实现鼠标拖拽滑动效果来选择数字的方法
2015/05/04 Javascript
JavaScript实现给按钮加上双重动作的方法
2015/08/14 Javascript
jquery实现的Banner广告收缩效果代码
2015/09/02 Javascript
同步文本框内容JS代码实现
2016/08/04 Javascript
微信小程序 for 循环详解
2016/10/09 Javascript
简单实现js点击展开二级菜单功能
2017/05/16 Javascript
nodejs实现的连接MySQL数据库功能示例
2018/01/25 NodeJs
js动态设置select下拉菜单的默认选中项实例
2018/08/21 Javascript
微信小程序使用 vant Dialog组件的正确方式
2020/02/21 Javascript
keep-alive不能缓存多层级路由菜单问题解决
2020/03/10 Javascript
[36:17]DOTA2上海特级锦标赛 - VGL音乐会全集
2016/03/06 DOTA
Python在线运行代码助手
2016/07/15 Python
Python3.4编程实现简单抓取爬虫功能示例
2017/09/14 Python
Pytorch .pth权重文件的使用解析
2020/02/14 Python
Python numpy矩阵处理运算工具用法汇总
2020/07/13 Python
python利用递归方法实现求集合的幂集
2020/09/07 Python
Pycharm安装python库的方法
2020/11/24 Python
css3 column实现卡片瀑布流布局的示例代码
2018/06/22 HTML / CSS
美国女性服饰销售网站:Nasty Gal(坏女孩)
2016/07/26 全球购物
银行实习生自我鉴定范文
2013/09/19 职场文书
给排水工程师岗位职责
2013/11/21 职场文书
《在大海中永生》教学反思
2014/02/24 职场文书
清明节扫墓活动方案
2014/03/02 职场文书
德语专业求职信
2014/03/12 职场文书
生产助理岗位职责
2014/06/18 职场文书
英语导游词
2015/02/13 职场文书
《1942》观后感
2015/06/08 职场文书
2019最新版火锅店的创业计划书 !
2019/07/12 职场文书
SQL实现LeetCode(177.第N高薪水)
2021/08/04 MySQL