编程 Python

Python爬取数据保存为Json格式的代码示例

Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下：

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python爬取数据保存为Json格式的代码示例

- Author -

zhanghl150426

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现将英文单词表示的数字转换成阿拉伯数字的方法

Jul 02 Python

python3实现windows下同名进程监控

Jun 21 Python

对Python3.6 IDLE常用快捷键介绍

Jul 16 Python

Python使用正则表达式分割字符串的实现方法

Jul 16 Python

详解pandas中MultiIndex和对象实际索引不一致问题

Jul 23 Python

python多线程案例之多任务copy文件完整实例

Oct 29 Python

pygame实现烟雨蒙蒙下彩虹雨

Nov 11 Python

Python之字符串的遍历的4种方式

Dec 08 Python

Python爬虫教程之利用正则表达式匹配网页内容

Dec 08 Python

分享PyCharm最新激活码(真永久激活方法)不用每月找安装参数或最新激活码了

Dec 27 Python

python基础之文件操作

Oct 24 Python

Python中第三方库Faker的使用详解

Apr 02 Python

python实现QQ空间自动点赞功能

Apr 09 #Python

Python实现的多进程拷贝文件并显示百分比功能示例

Apr 09 #Python

Python使用crontab模块设置和清除定时任务操作详解

Apr 09 #Python

Python实现的读取文件内容并写入其他文件操作示例

Apr 09 #Python

Python实现根据日期获取当天凌晨时间戳的方法示例

Apr 09 #Python

Python匿名函数及应用示例

Apr 09 #Python

用Python中的turtle模块画图两只小羊方法

Apr 09 #Python

You might like

php递归创建目录的方法

2015/02/02 PHP

PHP封装返回Ajax字符串和JSON数组的方法

2017/02/17 PHP

jquery dialog键盘事件代码

2010/08/01 Javascript

Ext对基本类型的扩展 ext,extjs,format

2010/12/25 Javascript

struts2+jquery+json实现异步加载数据(自写)

2013/06/24 Javascript

jquery中$.post()方法的简单实例

2014/02/04 Javascript

jquery让指定的元素闪烁显示的方法

2015/03/17 Javascript

jQuery使用hide方法隐藏页面上指定元素的方法

2015/03/30 Javascript

jquery读取xml文件实现省市县三级联动的方法

2015/05/29 Javascript

javascript中一些util方法汇总

2015/06/10 Javascript

canvas实现图像布局填充功能

2017/02/06 Javascript

angular 用拦截器统一处理http请求和响应的方法

2017/06/08 Javascript

微信小程序框架wepy之动态控制类名

2018/09/14 Javascript

JS回调函数简单易懂的入门实例分析

2019/09/29 Javascript

vue中实现回车键登录功能

2020/02/19 Javascript

es6中new.target的作用和使用场景简单示例分析

2020/03/14 Javascript

JS实现鼠标按下拖拽效果

2020/07/23 Javascript

深入理解Python中字典的键的使用

2015/08/19 Python

Python实现自动登录百度空间的方法

2017/06/10 Python

如何高效使用Python字典的方法详解

2017/08/31 Python

Python输出指定字符串的方法

2020/02/06 Python

python中判断文件结束符的具体方法

2020/08/04 Python

python Matplotlib模块的使用

2020/09/16 Python

使用postMessage让 iframe自适应高度的方法示例

2019/10/08 HTML / CSS

很酷的小工具和电子产品商城：GearBest

2016/11/19 全球购物

用C或者C++语言实现SOCKET通信

2015/02/24 面试题

优秀党务工作者事迹材料

2014/05/07 职场文书

环保建议书600字

2014/05/14 职场文书

体育节口号

2014/06/19 职场文书

学校领导四风问题整改措施思想汇报

2014/10/09 职场文书

电影建国大业观后感

2015/06/01 职场文书

海上钢琴师的观后感

2015/06/11 职场文书

超级礼物观后感

2015/06/15 职场文书

《蟋蟀的住宅》教学反思

2016/02/17 职场文书

再见，2019我们不负使命；你好，2020我们砥砺前行

2020/01/03 职场文书

Nginx文件已经存在全局反向代理问题排查记录

2022/07/15 Servers