Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python中的字符串操作和编码Unicode详解
Jan 18 Python
python中import学习备忘笔记
Jan 24 Python
浅谈Python接口对json串的处理方法
Dec 19 Python
python按照多个条件排序的方法
Feb 08 Python
将string类型的数据类型转换为spark rdd时报错的解决方法
Feb 18 Python
快速解决pyqt5窗体关闭后子线程不同时退出的问题
Jun 19 Python
pyqt5 lineEdit设置密码隐藏,删除lineEdit已输入的内容等属性方法
Jun 24 Python
jupyter 导入csv文件方式
Apr 21 Python
使用python求斐波那契数列中第n个数的值示例代码
Jul 26 Python
Python生成pdf目录书签的实例方法
Oct 29 Python
详解pandas apply 并行处理的几种方法
Feb 24 Python
深入浅析python3 依赖倒置原则(示例代码)
Jul 09 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
ob_start(),ob_start('ob_gzhandler')使用
2006/12/25 PHP
CI框架文件上传类及图像处理类用法分析
2016/05/18 PHP
Aster vs KG BO3 第二场2.19
2021/03/10 DOTA
实例:尽可能写友好的Javascript代码
2006/10/09 Javascript
JS获取IUSR_机器名和IWAM_机器名帐号的密码
2006/12/06 Javascript
用Javascript评估用户输入密码的强度(Knockout版)
2011/11/30 Javascript
jquery控制表单输入框显示默认值的方法
2015/05/22 Javascript
浅析Bootstrip的select控件绑定数据的问题
2016/05/10 Javascript
利用Query+bootstrap和js两种方式实现日期选择器
2017/01/10 Javascript
Vue-cli 使用json server在本地模拟请求数据的示例代码
2017/11/02 Javascript
Node.js使用Koa搭建 基础项目
2018/01/08 Javascript
vue中的provide/inject的学习使用
2018/05/09 Javascript
详解如何配置vue-cli3.0的vue.config.js
2018/08/23 Javascript
electron实现qq快捷登录的方法示例
2018/10/22 Javascript
iview实现select tree树形下拉框的示例代码
2018/12/21 Javascript
VUE+Element环境搭建与安装的方法步骤
2019/01/24 Javascript
Vue中实现权限控制的方法示例
2019/06/07 Javascript
js的新生代垃圾回收知识点总结
2019/08/22 Javascript
jQuery实现简单弹幕效果
2019/11/28 jQuery
jQuery实现高度灵活的表单验证功能示例【无UI】
2020/04/30 jQuery
[34:39]DOTA2上海特级锦标赛主赛事日 - 4 败者组第四轮#1COL VS EG第二局
2016/03/05 DOTA
[10:14]2018DOTA2国际邀请赛寻真——paiN Gaming不仅为自己而战
2018/08/14 DOTA
python获取网页状态码示例
2014/03/30 Python
Python使用poplib模块和smtplib模块收发电子邮件的教程
2016/07/02 Python
Python 计算任意两向量之间的夹角方法
2019/07/05 Python
Pandas把dataframe或series转换成list的方法
2020/06/14 Python
css3实现六边形边框的实例代码
2019/05/24 HTML / CSS
Theflamel意大利:女士奢华服装、鞋子和配件
2020/01/11 全球购物
招商经理岗位职责
2013/11/16 职场文书
廉洁使者实施方案
2014/03/29 职场文书
中学生操行评语大全
2014/04/24 职场文书
学生手册评语
2014/05/05 职场文书
课外活动总结范文
2014/07/09 职场文书
2014年党风廉政建设工作总结
2014/11/19 职场文书
为什么说餐饮很难做,是因为你不了解这些新规则
2019/08/20 职场文书
Python极值整数的边界探讨分析
2021/09/15 Python