Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python脚本实现分析dns日志并对受访域名排行
Sep 18 Python
Python解决鸡兔同笼问题的方法
Dec 20 Python
python嵌套函数使用外部函数变量的方法(Python2和Python3)
Jan 31 Python
python脚本实现数据导出excel格式的简单方法(推荐)
Dec 30 Python
Python正则简单实例分析
Mar 21 Python
Python如何快速实现分布式任务
Jul 06 Python
python 实现数组list 添加、修改、删除的方法
Apr 04 Python
python fuzzywuzzy模块模糊字符串匹配详细用法
Aug 29 Python
从训练好的tensorflow模型中打印训练变量实例
Jan 20 Python
python小程序基于Jupyter实现天气查询的方法
Mar 27 Python
python matplotlib库的基本使用
Sep 23 Python
搭建pypi私有仓库实现过程详解
Nov 25 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
php 生成饼图 三维饼图
2009/09/28 PHP
以文件形式缓存php变量的方法
2015/06/26 PHP
php中final关键字用法分析
2016/12/07 PHP
搭建自己的PHP MVC框架详解
2017/08/16 PHP
提高Laravel应用性能方法详解
2019/06/24 PHP
laravel中的fillable和guarded属性详解
2019/10/23 PHP
PHP 对象继承原理与简单用法示例
2020/04/21 PHP
jQuery 1.3 和 Validation 验证插件1.5.1
2009/07/09 Javascript
Jquery知识点三 jquery表单对象操作
2011/01/17 Javascript
js DOM的学习笔记
2011/12/22 Javascript
jquery $.trim()方法使用介绍
2014/05/21 Javascript
jquery缓动swing liner控制动画过程不同时刻的速度
2014/05/29 Javascript
Jquery轮播效果实现过程解析
2016/03/30 Javascript
ES2015 Symbol 一种绝不重复的值
2016/12/25 Javascript
vue2.0父子组件间通信的实现方法
2017/04/19 Javascript
React Native第三方平台分享的实例(Android,IOS双平台)
2017/08/04 Javascript
完美解决mui框架off-canvas侧滑超出部分隐藏无法滚动的问题
2018/01/25 Javascript
解决cordova+vue 项目打包成APK应用遇到的问题
2019/05/10 Javascript
JS实现瀑布流效果
2020/03/07 Javascript
pandas中Timestamp类用法详解
2017/12/11 Python
完美解决在oj中Python的循环输入问题
2018/06/25 Python
Pandas读取并修改excel的示例代码
2019/02/17 Python
python实现多进程按序号批量修改文件名的方法示例
2019/12/30 Python
150行python代码实现贪吃蛇游戏
2020/04/24 Python
HTML5中的autofocus(自动聚焦)属性介绍
2014/04/23 HTML / CSS
函授教育个人学习的自我评价
2013/12/31 职场文书
学校安全检查制度
2014/01/27 职场文书
军训自我鉴定200字
2014/02/13 职场文书
新年爱情寄语
2014/04/08 职场文书
4s店销售经理岗位职责
2014/07/19 职场文书
2014年团支书工作总结
2014/11/14 职场文书
教师“一帮一”结对子活动总结
2015/05/07 职场文书
孩子满月酒答谢词
2015/09/30 职场文书
企业文化学习心得体会
2016/01/21 职场文书
写给消防战士们的一封慰问信
2019/10/07 职场文书
Python实现为PDF去除水印的示例代码
2022/04/03 Python