Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python数据类型详解(一)字符串
May 08 Python
Python 实现数据库(SQL)更新脚本的生成方法
Jul 09 Python
利用Python查看目录中的文件示例详解
Aug 28 Python
Python及PyCharm下载与安装教程
Nov 18 Python
用tensorflow构建线性回归模型的示例代码
Mar 05 Python
python实现数独游戏 java简单实现数独游戏
Mar 30 Python
numpy 进行数组拼接,分别在行和列上合并的实例
May 08 Python
对python读取CT医学图像的实例详解
Jan 24 Python
python实现的读取网页并分词功能示例
Oct 29 Python
python设置 matplotlib 正确显示中文的四种方式
May 10 Python
Python中的pprint模块
Nov 27 Python
Python中如何处理常见报错
Jan 18 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
屏蔽浏览器缓存另类方法
2006/10/09 PHP
thinkphp四种url访问方式详解
2014/11/28 PHP
网页的分页下标生成代码(PHP后端方法)
2016/02/03 PHP
thinkPHP数据查询常用方法总结【select,find,getField,query】
2017/03/15 PHP
PHP中关于php.ini参数优化详解
2020/02/28 PHP
限制文本字节数js代码
2007/03/06 Javascript
40个有创意的jQuery图片和内容滑动及弹出插件收藏集之二
2011/12/31 Javascript
js动态切换图片的方法
2015/01/20 Javascript
Javascript核心读书有感之词法结构
2015/02/01 Javascript
JavaScript获得页面base标签中url的方法
2015/04/03 Javascript
Javascript递归打印Document层次关系实例分析
2015/05/15 Javascript
jQuery 中的 DOM 操作
2016/04/26 Javascript
详解使用vue-router进行页面切换时滚动条位置与滚动监听事件
2017/03/08 Javascript
页面间固定参数,通过cookie传值的实现方法
2017/05/31 Javascript
Angular CLI 安装和使用教程
2017/09/13 Javascript
Vue将页面导出为图片或者PDF
2020/08/17 Javascript
移动端吸顶fixbar的解决方案详解
2019/07/17 Javascript
layui关闭弹窗后刷新主页面和当前更改项的例子
2019/09/06 Javascript
Python实现读取目录所有文件的文件名并保存到txt文件代码
2014/11/22 Python
Python中工作日类库Busines Holiday的介绍与使用
2017/07/06 Python
Python中join函数简单代码示例
2018/01/09 Python
python pandas移动窗口函数rolling的用法
2020/02/29 Python
pycharm中import呈现灰色原因的解决方法
2020/03/04 Python
Python WebSocket长连接心跳与短连接的示例
2020/11/24 Python
python中实现词云图的示例
2020/12/19 Python
MAC彩妆英国官网:M·A·C UK
2018/05/30 全球购物
Kipling澳洲官网:购买凯浦林包包
2020/12/17 全球购物
西安启天科技有限公司网络工程师面试题笔试题
2016/06/12 面试题
英文版销售经理个人求职信
2013/11/20 职场文书
员工工作表扬信范文
2014/01/13 职场文书
学术会议邀请函范文
2014/01/22 职场文书
动画设计系毕业生求职信
2014/07/15 职场文书
“九一八事变纪念日”国旗下讲话稿
2014/09/14 职场文书
幼儿园中班个人总结
2015/02/28 职场文书
我的暑假生活作文(五年级)范文
2019/08/07 职场文书
解决golang在import自己的包报错的问题
2021/04/29 Golang