编程 Python

python实现知乎高颜值图片爬取

Posted in Python onAugust 12, 2019

导入相关包

import time
import pydash
import base64
import requests
from lxml import etree
from aip import AipFace
from pathlib import Path

百度云人脸检测申请信息

#唯一必须填的信息就这三行
APP_ID = "xxxxxxxx"
API_KEY = "xxxxxxxxxxxxxxxx"
SECRET_KEY = "xxxxxxxxxxxxxxxx"
# 过滤颜值阈值，存储空间大的请随意
BEAUTY_THRESHOLD = 55
AUTHORIZATION = "oauth c3cef7c66a1843f8b3a9e6a1e3160e20"
# 如果权限错误，浏览器中打开知乎，在开发者工具复制一个，无需登录
# 建议最好换一个，因为不知道知乎的反爬虫策略，如果太多人用同一个，可能会影响程序运行

以下皆无需改动

# 每次请求知乎的讨论列表长度，不建议设定太长，注意节操
LIMIT = 5
# 这是话题『美女』的 ID，其是『颜值』（20013528）的父话题
SOURCE = "19552207"

爬虫假装下正常浏览器请求

USER_AGENT = "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.55.3 (KHTML, like Gecko) Version/5.1.5 Safari/534.55.3"
REFERER = "https://www.zhihu.com/topic/%s/newest" % SOURCE
# 某话题下讨论列表请求 url
BASE_URL = "https://www.zhihu.com/api/v4/topics/%s/feeds/timeline_activity"
# 初始请求 url 附带的请求参数
URL_QUERY = "?include=data%5B%3F%28target.type%3Dtopic_sticky_module%29%5D.target.data%5B%3F%28target.type%3Danswer%29%5D.target.content%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%3Bdata%5B%3F%28target.type%3Dtopic_sticky_module%29%5D.target.data%5B%3F%28target.type%3Danswer%29%5D.target.is_normal%2Ccomment_count%2Cvoteup_count%2Ccontent%2Crelevant_info%2Cexcerpt.author.badge%5B%3F%28type%3Dbest_answerer%29%5D.topics%3Bdata%5B%3F%28target.type%3Dtopic_sticky_module%29%5D.target.data%5B%3F%28target.type%3Darticle%29%5D.target.content%2Cvoteup_count%2Ccomment_count%2Cvoting%2Cauthor.badge%5B%3F%28type%3Dbest_answerer%29%5D.topics%3Bdata%5B%3F%28target.type%3Dtopic_sticky_module%29%5D.target.data%5B%3F%28target.type%3Dpeople%29%5D.target.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics%3Bdata%5B%3F%28target.type%3Danswer%29%5D.target.content%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%3Bdata%5B%3F%28target.type%3Danswer%29%5D.target.author.badge%5B%3F%28type%3Dbest_answerer%29%5D.topics%3Bdata%5B%3F%28target.type%3Darticle%29%5D.target.content%2Cauthor.badge%5B%3F%28type%3Dbest_answerer%29%5D.topics%3Bdata%5B%3F%28target.type%3Dquestion%29%5D.target.comment_count&limit=" + str(
  LIMIT)

HEADERS = {
  "User-Agent": USER_AGENT,
  "Referer": REFERER,
  "authorization": AUTHORIZATION

指定 url，获取对应原始内容 / 图片

def fetch_image(url):
  try:
    response = requests.get(url, headers=HEADERS)
  except Exception as e:
    raise e
  return response.content

指定 url，获取对应 JSON 返回 / 话题列表

def fetch_activities(url):
  try:
    response = requests.get(url, headers=HEADERS)
  except Exception as e:
    raise e
  return response.json()

处理返回的话题列表

def parser_activities(datums, face_detective):
  for data in datums["data"]:
    target = data["target"]
    if "content" not in target or "question" not in target or "author" not in target:
      continue
    html = etree.HTML(target["content"])
    seq = 0
    title = target["question"]["title"]
    author = target["author"]["name"]
    images = html.xpath("//img/@src")
    for image in images:
      if not image.startswith("http"):
        continue
      image_data = fetch_image(image)
      score = face_detective(image_data)
      if not score:
        continue
      name = "{}--{}--{}--{}.jpg".format(score, author, title, seq)
      seq = seq + 1
      path = Path(__file__).parent.joinpath("image").joinpath(name)
      try:
        f = open(path, "wb")
        f.write(image_data)
        f.flush()
        f.close()
        print(path)
        time.sleep(2)
      except Exception as e:
        continue
  if not datums["paging"]["is_end"]:
    return datums["paging"]["next"]
  else:
    return None

初始化颜值检测工具

def init_detective(app_id, api_key, secret_key):
  client = AipFace(app_id, api_key, secret_key)
  options = {"face_field": "age,gender,beauty,qualities"}
  def detective(image):
    image = str(base64.b64encode(image), "utf-8")
    response = client.detect(str(image), "BASE64", options)
    response = response.get("result")
    if not response:
      return
    if (not response) or (response["face_num"] == 0):
      return
    face_list = response["face_list"]
    if pydash.get(face_list, "0.face_probability") < 0.6:
      return
    if pydash.get(face_list, "0.beauty") < BEAUTY_THRESHOLD:
      return
    if pydash.get(face_list, "0.gender.type") != "female":
      return
    score = pydash.get(face_list, "0.beauty")
    return score
  return detective

程序入口

def main():
  face_detective = init_detective(APP_ID, API_KEY, SECRET_KEY)
  url = BASE_URL % SOURCE + URL_QUERY
  while url is not None:
    datums = fetch_activities(url)
    url = parser_activities(datums, face_detective)
    time.sleep(5)
if __name__ == '__main__':
  main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python实现知乎高颜值图片爬取

- Author -

Leslie-x

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Django的session中对于用户验证的支持

Jul 23 Python

python 多线程实现检测服务器在线情况

Nov 25 Python

Python 爬虫多线程详解及实例代码

Oct 08 Python

Python编程求解二叉树中和为某一值的路径代码示例

Jan 04 Python

关于Python的一些学习总结

May 25 Python

Django Form 实时从数据库中获取数据的操作方法

Jul 25 Python

Python高级特性切片迭代解析

Aug 23 Python

使用python脚本自动创建pip.ini配置文件代码实例

Sep 20 Python

Pycharm 字体大小调整设置的方法实现

Sep 27 Python

python中的RSA加密与解密实例解析

Nov 18 Python

Pytorch实现神经网络的分类方式

Jan 08 Python

Python批量启动多线程代码实例

Feb 18 Python

python3 enum模块的应用实例详解

Aug 12 #Python

Python一键查找iOS项目中未使用的图片、音频、视频资源

Aug 12 #Python

django+echart数据动态显示的例子

Aug 12 #Python

Flask框架学习笔记之使用Flask实现表单开发详解

Aug 12 #Python

Flask框架学习笔记之表单基础介绍与表单提交方式

Aug 12 #Python

python内存管理机制原理详解

Aug 12 #Python

Flask框架学习笔记之路由和反向路由详解【图文与实例】

Aug 12 #Python

You might like

用php实现的获取网页中的图片并保存到本地的代码

2010/01/05 PHP

php找出指定范围内回文数且平方根也是回文数的方法

2015/03/23 PHP

yii2整合百度编辑器umeditor及umeditor图片上传问题的解决办法

2016/04/20 PHP

Laravel中Facade的加载过程与原理详解

2017/09/22 PHP

php中的钩子理解及应用实例分析

2019/08/30 PHP

Jquery中增加参数与Json转换代码

2009/11/20 Javascript

JavaScript中的getDay()方法使用详解

2015/06/09 Javascript

CSS3实现动态背景登录框的代码

2015/07/28 Javascript

JS脚本根据手机浏览器类型跳转WAP手机网站（两种方式）

2015/08/04 Javascript

将input框中输入内容显示在相应的div中【三种方法可选】

2017/05/08 Javascript

vue中简单弹框dialog的实现方法

2018/02/26 Javascript

vue-cli监听组件加载完成的方法

2018/09/07 Javascript

判断JavaScript中的两个变量是否相等的操作符

2019/12/21 Javascript

[01:08:09]DOTA2上海特级锦标赛主赛事日 - 1 胜者组第一轮#1Liquid VS Alliance第二局

2016/03/02 DOTA

Pyhton中单行和多行注释的使用方法及规范

2016/10/11 Python

pygame加载中文名mp3文件出现error

2017/03/31 Python

python编写弹球游戏的实现代码

2018/03/12 Python

30秒轻松实现TensorFlow物体检测

2018/03/14 Python

python UDP(udp)协议发送和接收的实例

2019/07/22 Python

python正则-re的用法详解

2019/07/28 Python

pytorch 使用单个GPU与多个GPU进行训练与测试的方法

2019/08/19 Python

python使用nibabel和sitk读取保存nii.gz文件实例

2020/07/01 Python

python把一个字符串切开的实例方法

2020/09/27 Python

德国户外装备、登山运动和攀岩商店：tapir store

2020/02/12 全球购物

迪卡侬印尼体育用品商店：Decathlon印尼

2020/03/11 全球购物

护士自荐信

2013/10/25 职场文书

销售找工作求职信

2013/12/20 职场文书

社区母亲节活动方案

2014/03/05 职场文书

奠基仪式策划方案

2014/05/15 职场文书

2014法制宣传日活动总结范文

2014/11/01 职场文书

2014年学生会工作总结范文

2014/11/07 职场文书

2014年高中教师工作总结

2014/12/19 职场文书

单位提档介绍信

2015/10/22 职场文书

大学生党课心得体会

2016/01/07 职场文书

如何利用Matlab制作一款真正的拼图小游戏

2021/05/11 Python

Python IO文件管理的具体使用

2022/03/20 Python