Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python实现将英文单词表示的数字转换成阿拉伯数字的方法
Jul 02 Python
python3实现windows下同名进程监控
Jun 21 Python
对Python3.6 IDLE常用快捷键介绍
Jul 16 Python
Python使用正则表达式分割字符串的实现方法
Jul 16 Python
详解pandas中MultiIndex和对象实际索引不一致问题
Jul 23 Python
python多线程案例之多任务copy文件完整实例
Oct 29 Python
pygame实现烟雨蒙蒙下彩虹雨
Nov 11 Python
Python之字符串的遍历的4种方式
Dec 08 Python
Python爬虫教程之利用正则表达式匹配网页内容
Dec 08 Python
分享PyCharm最新激活码(真永久激活方法)不用每月找安装参数或最新激活码了
Dec 27 Python
python基础之文件操作
Oct 24 Python
Python中第三方库Faker的使用详解
Apr 02 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
php递归创建目录的方法
2015/02/02 PHP
PHP封装返回Ajax字符串和JSON数组的方法
2017/02/17 PHP
jquery dialog键盘事件代码
2010/08/01 Javascript
Ext对基本类型的扩展 ext,extjs,format
2010/12/25 Javascript
struts2+jquery+json实现异步加载数据(自写)
2013/06/24 Javascript
jquery中$.post()方法的简单实例
2014/02/04 Javascript
jquery让指定的元素闪烁显示的方法
2015/03/17 Javascript
jQuery使用hide方法隐藏页面上指定元素的方法
2015/03/30 Javascript
jquery读取xml文件实现省市县三级联动的方法
2015/05/29 Javascript
javascript中一些util方法汇总
2015/06/10 Javascript
canvas实现图像布局填充功能
2017/02/06 Javascript
angular 用拦截器统一处理http请求和响应的方法
2017/06/08 Javascript
微信小程序框架wepy之动态控制类名
2018/09/14 Javascript
JS回调函数简单易懂的入门实例分析
2019/09/29 Javascript
vue中实现回车键登录功能
2020/02/19 Javascript
es6中new.target的作用和使用场景简单示例分析
2020/03/14 Javascript
JS实现鼠标按下拖拽效果
2020/07/23 Javascript
深入理解Python中字典的键的使用
2015/08/19 Python
Python实现自动登录百度空间的方法
2017/06/10 Python
如何高效使用Python字典的方法详解
2017/08/31 Python
Python输出指定字符串的方法
2020/02/06 Python
python中判断文件结束符的具体方法
2020/08/04 Python
python Matplotlib模块的使用
2020/09/16 Python
使用postMessage让 iframe自适应高度的方法示例
2019/10/08 HTML / CSS
很酷的小工具和电子产品商城:GearBest
2016/11/19 全球购物
用C或者C++语言实现SOCKET通信
2015/02/24 面试题
优秀党务工作者事迹材料
2014/05/07 职场文书
环保建议书600字
2014/05/14 职场文书
体育节口号
2014/06/19 职场文书
学校领导四风问题整改措施思想汇报
2014/10/09 职场文书
电影建国大业观后感
2015/06/01 职场文书
海上钢琴师的观后感
2015/06/11 职场文书
超级礼物观后感
2015/06/15 职场文书
《蟋蟀的住宅》教学反思
2016/02/17 职场文书
再见,2019我们不负使命;你好,2020我们砥砺前行
2020/01/03 职场文书
Nginx文件已经存在全局反向代理问题排查记录
2022/07/15 Servers