编程 Python

Python基于分析Ajax请求实现抓取今日头条街拍图集功能示例

Posted in Python onJuly 19, 2018

本文实例讲述了Python基于分析Ajax请求实现抓取今日头条街拍图集功能。分享给大家供大家参考，具体如下：

代码:

import os
import re
import json
import time
from hashlib import md5
from multiprocessing import Pool
import requests
from requests.exceptions import RequestException
from pymongo import MongoClient
# 配置信息
OFFSET_START = 0  # 爬去页面的起始下标
OFFSET_END = 20  # 爬去页面的结束下标
KEYWORD = '街拍'  # 搜索的关键字
# mongodb相关配置
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'  # 数据库名称
MONGO_TABLE = 'jiepai' # 集合名称
# 图片保存的文件夹名称
IMAGE_PATH = 'images'
headers = {
  "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
client = MongoClient(host=MONGO_URL)
db = client[MONGO_DB]
jiepai_table = db[MONGO_TABLE]
if not os.path.exists(IMAGE_PATH):
  os.mkdir(IMAGE_PATH)
def get_html(url, params=None):
  try:
    response = requests.get(url, params=params, headers=headers)
    if response.status_code == 200:
      return response.text
    return None
  except RequestException as e:
    print("请求%s失败: " % url, e)
    return None
# 获取索引页内容
def get_index_page(offset, keyword):
  basic_url = 'http://www.toutiao.com/search_content/'
  params = {
    'offset': offset,
    'format': 'json',
    'keyword': keyword,
    'autoload': 'true',
    'count': 20,
    'cur_tab': 3
  }
  return get_html(basic_url, params)
def parse_index_page(html):
  '''
  解析索引页内容
  返回: 索引页中包含的所有详情页url
  '''
  if not html:
    return
  data = json.loads(html)
  if 'data' in data:
    for item in data['data']:
      article_url = item['article_url']
      if 'toutiao.com/group' in article_url:
        yield article_url
# 获取详情页
def get_detail_page(url):
  return get_html(url)
# 解析详情页
def parse_detail_page(url, html):
  '''
    解析详情页
    返回对应的标题，url和包含的图片url
  '''
  title_reg = re.compile('<title>(.*?)</title>')
  title = title_reg.search(html).group(1)
  gallery_reg = re.compile('var gallery = (.*?);')
  gallery = gallery_reg.search(html)
  if gallery and 'sub_images' in gallery.group(1):
    images = json.loads(gallery.group(1))['sub_images']
    image_list = [image['url'] for image in images]
    return {
      'title': title,
      'url': url,
      'images': image_list
    }
  return None
def save_to_mongodb(content):
  jiepai_table.insert(content)
  print("存储到mongdob成功", content)
def download_images(image_list):
  for image_url in image_list:
    try:
      response = requests.get(image_url)
      if response.status_code == 200:
        save_image(response.content)
    except RequestException as e:
      print("下载图片失败: ", e)
def save_image(content):
  '''
    对图片的二进制内容做hash，构造图片路径,以此保证图片不重复
  '''
  file_path = '{0}/{1}/{2}.{3}'.format(os.getcwd(),
                     IMAGE_PATH, md5(content).hexdigest(), 'jpg')
  # 去除重复的图片
  if not os.path.exists(file_path):
    with open(file_path, 'wb') as f:
      f.write(content)
def jiepai(offset):
  html = get_index_page(offset, KEYWORD)
  if html is None:
    return
  page_urls = list(parse_index_page(html))
  # print("详情页url列表:" )
  # for page_url in page_urls:
  #   print(page_url)
  for page in page_urls:
    print('get detail page:', page)
    html = get_detail_page(page)
    if html is None:
      continue
    content = parse_detail_page(page, html)
    if content:
      save_to_mongodb(content)
      download_images(content['images'])
      time.sleep(1)
  print('-------------------------------------')
if __name__ == '__main__':
  offset_list = range(OFFSET_START, OFFSET_END)
  pool = Pool()
  pool.map(jiepai, offset_list)

备注:

其实通过url请求返回的json数据中已经包含了图片列表

import requests
basic_url = 'http://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3'
url = basic_url.format(0)
html = requests.get(url).json()
items = html['data']
for item in items:
  title = item['media_name']
  image_list = [image_detail['url'] for image_detail in item['image_detail']]
  print(title, image_list)

希望本文所述对大家Python程序设计有所帮助。

Python基于分析Ajax请求实现抓取今日头条街拍图集功能示例

- Author -

wanlifeipeng

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现windows下模拟按键和鼠标点击的方法

Mar 13 Python

python中实现延时回调普通函数示例代码

Sep 08 Python

python中使用正则表达式的后向搜索肯定模式(推荐)

Nov 11 Python

Python之list对应元素求和的方法

Jun 28 Python

python求最大连续子数组的和

Jul 07 Python

解决pycharm运行时interpreter为空的问题

Oct 29 Python

python3.6、opencv安装环境搭建过程(图文教程)

Nov 05 Python

python面向对象之类属性和类方法案例分析

Dec 30 Python

Pytest mark使用实例及原理解析

Feb 22 Python

pytorch判断是否cuda 判断变量类型方式

Jun 23 Python

Python pickle模块常用方法代码实例

Oct 10 Python

Python 找出英文单词列表(list)中最长单词链

Dec 14 Python

Python通过调用有道翻译api实现翻译功能示例

Jul 19 #Python

python3基于OpenCV实现证件照背景替换

Jul 18 #Python

python和opencv实现抠图

Jul 18 #Python

Python错误处理操作示例

Jul 18 #Python

Python内存读写操作示例

Jul 18 #Python

NumPy 数学函数及代数运算的实现代码

Jul 18 #Python

Sanic框架应用部署方法详解

Jul 18 #Python

You might like

PHP面向对象编程快速入门

2006/10/09 PHP

Android AsyncTack 异步任务实例详解

2016/11/02 PHP

说说JSON和JSONP 也许你会豁然开朗

2012/09/02 Javascript

JavaScript 实现打印,打印预览,打印设置

2014/12/30 Javascript

DOM基础教程之事件对象

2015/01/20 Javascript

深入分析JSON编码格式提交表单数据

2015/06/25 Javascript

jQuery使用$.ajax进行异步刷新的方法(附demo下载)

2015/12/04 Javascript

在javascript中创建对象的各种模式解析

2016/05/16 Javascript

Bootstrap Table使用方法详解

2016/08/01 Javascript

jQuery leonaScroll 1.1 自定义滚动条插件(推荐)

2016/09/17 Javascript

JS识别浏览器类型(电脑浏览器和手机浏览器)

2016/11/18 Javascript

JS中with的替代方法与String中的正则方法详解

2016/12/23 Javascript

js正则表达式惰性匹配和贪婪匹配用法分析

2016/12/26 Javascript

js实现动态显示时间效果

2017/03/06 Javascript

微信小程序中setInterval的使用方法

2017/09/29 Javascript

Auto.js自动收取自己和好友蚂蚁森林能量脚本

2018/06/28 Javascript

JS监听事件的叠加和移除功能

2018/11/19 Javascript

详细教你微信公众号正文页SVG交互开发技巧

2019/07/25 Javascript

python 从远程服务器下载东西的代码

2013/02/10 Python

从零学python系列之新版本导入httplib模块报ImportError解决方案

2014/05/23 Python

介绍Python中内置的itertools模块

2015/04/29 Python

对Python中type打开文件的方式介绍

2018/04/28 Python

Python实现九宫格式的朋友圈功能内附“马云”朋友圈

2019/05/07 Python

Python 脚本实现淘宝准点秒杀功能

2019/11/13 Python

python用TensorFlow做图像识别的实现

2020/04/21 Python

keras读取训练好的模型参数并把参数赋值给其它模型详解

2020/06/15 Python

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

2021/02/22 Python

HTML5 Geolocation API的正确使用方法

2018/12/04 HTML / CSS

西班牙土拨鼠床垫公司，感觉在云端：Marmota

2019/03/18 全球购物

大学生村官演讲稿

2014/04/25 职场文书

医院党员公开承诺书

2014/08/30 职场文书

讲文明知礼仪演讲稿

2014/09/13 职场文书

没有孩子的离婚协议书怎么写

2014/09/17 职场文书

婚礼领导致辞大全

2015/07/28 职场文书

小学同学聚会感言

2015/07/30 职场文书

《鲸》教学反思

2016/02/23 职场文书