编程 Python

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

Posted in Python onJuly 18, 2018

本文实例讲述了Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息。分享给大家供大家参考，具体如下：

import time
from multiprocessing import Pool
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from bs4 import BeautifulSoup
from pymongo import MongoClient
from pymongo.errors import PyMongoError
# monogdb配置信息
MONGO_HOST = "localhost"
MONGO_DATABASE = "douyu"
MONGO_TABLE = "zhibo"
client = MongoClient(host=MONGO_HOST)
db = client[MONGO_DATABASE]
# PhantomJS 命令行相关配置
# 参见 http://phantomjs.org/api/command-line.html
SERVICE_ARGS = ['--disk-cache=true', '--load-images=false']
# driver = webdriver.Chrome() # 有界面
driver = webdriver.PhantomJS(service_args=SERVICE_ARGS) # 无界面
delay = 10
wait = WebDriverWait(driver, delay)
driver.maximize_window()
def get_total_pages():
  url = 'https://www.douyu.com/directory/all'
  driver.get(url)
  pages = int(driver.find_element_by_css_selector(
    '.shark-pager-dot + .shark-pager-item').text)
  print("正在获取第1页数据")
  room_list = get_rooms_by_beautifulsoup()
  save_to_monogodb(room_list)
  return pages
# 根据页码获取指定页数据，并将其保存到数据库中
def parse_page(page_num):
  print("正在获取第%d页数据" % page_num)
  try:
    page_num_box = wait.until(
      EC.presence_of_element_located(
        (By.CSS_SELECTOR, "input.jumptxt")))
    go_btn = wait.until(EC.element_to_be_clickable(
      (By.CSS_SELECTOR, 'a.shark-pager-submit')))
    page_num_box.clear()
    page_num_box.send_keys(page_num)
    go_btn.click()
    # driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    # time.sleep(0.1)
    wait.until(
      EC.text_to_be_present_in_element(
        (By.CSS_SELECTOR,
         '.shark-pager-item.current'),
        str(page_num)))
    # 对于By.CLASS_NAME invalid selector: Compound class names not permitted
    room_list = get_rooms_by_beautifulsoup()
    save_to_monogodb(room_list)
  except TimeoutException:
    print("请求第%d页失败" % page_num)
    print("尝试重新获取第%d页" % page_num)
    return parse_page(page_num)
# 通过bs4解析数据
def get_rooms_by_beautifulsoup():
  '''
  通过bs4库解析数据
  获取直播间的名称，观看人数,标签，主播名
  '''
  wait.until(EC.presence_of_element_located(
    (By.CSS_SELECTOR, "ul#live-list-contentbox > li")))
  html = driver.page_source
  soup = BeautifulSoup(html, 'lxml')
  rooms = soup.select('ul#live-list-contentbox > li')
  for room in rooms:
    room_name = room.find(
      'h3', attrs={
        'class': 'ellipsis'}).get_text(
      strip=True)
    view_count = room.find('span', class_='dy-num fr').text
    tag = room.find('span', class_='tag ellipsis').text
    hostname = room.find('span', class_='dy-name ellipsis fl').text
    #print("房间名: " + room_name + "\t观看人数: " + view_count + "\t标签: " + tag + "\t主播名: " + hostname)
    yield {
      'room_name': room_name,
      'view_count': view_count,
      'tag': tag,
      'hostname': hostname,
    }
def save_to_monogodb(room_list):
  for room in room_list:
    try:
      db[MONGO_TABLE].insert(room)  # insert支持插入多条数据
      print("mongodb插入数据成功:", room)
    except PyMongoError as e:
      print("mongodb插入数据失败:", room, e)
if __name__ == '__main__':
  try:
    total_pages = get_total_pages()
    for page_num in range(2, total_pages + 1):
      parse_page(page_num)
  except Exception as e:
    print("出错了", e)
  finally: # 确保 浏览器能正常关闭
    print("共有%d页" % total_pages)
    driver.close()

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

- Author -

wanlifeipeng

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

仅用500行Python代码实现一个英文解析器的教程

Apr 02 Python

python判断图片宽度和高度后删除图片的方法

May 22 Python

Python函数式编程指南（三）：迭代器详解

Jun 24 Python

python列出目录下指定文件与子目录的方法

Jul 03 Python

深入理解python中的atexit模块

Mar 07 Python

django2用iframe标签完成网页内嵌播放b站视频功能

Jun 20 Python

详解Python中正则匹配TAB及空格的小技巧

Jul 26 Python

python框架flask表单实现详解

Nov 04 Python

python 实现将小图片放到另一个较大的白色或黑色背景图片中

Dec 12 Python

Python语言异常处理测试过程解析

Jan 08 Python

python+opencv边缘提取与各函数参数解析

Mar 09 Python

python numpy矩阵信息说明,shape,size,dtype

May 22 Python

解决Python3中的中文字符编码的问题

Jul 18 #Python

Python使用Selenium模块实现模拟浏览器抓取淘宝商品美食信息功能示例

Jul 18 #Python

python 将print输出的内容保存到txt文件中

Jul 17 #Python

python 实现对数据集的归一化的方法(0-1之间)

Jul 17 #Python

Python计算开方、立方、圆周率,精确到小数点后任意位的方法

Jul 17 #Python

python把数组中的数字每行打印3个并保存在文档中的方法

Jul 17 #Python

python3.x 将byte转成字符串的方法

Jul 17 #Python

You might like

php循环输出数据库内容的代码

2008/05/24 PHP

php 删除一维数组中某一个值元素的操作方法

2018/02/01 PHP

新闻内页-JS分页

2006/06/07 Javascript

用于节点操作的API，颠覆原生操作HTML DOM节点的API

2010/12/11 Javascript

JS判断元素为数字的奇异写法分享

2012/08/01 Javascript

js 3种归并操作的实例代码

2013/10/30 Javascript

关于编写性能高效的javascript事件的技术

2014/11/28 Javascript

浅谈JavaScript中的string拥有方法的原因

2015/08/28 Javascript

AngularJS directive返回对象属性详解

2016/03/28 Javascript

AngularJS实现textarea记录只能输入规定数量的字符并显示

2016/04/26 Javascript

Ionic实现页面下拉刷新(ion-refresher）功能代码

2016/06/03 Javascript

JavaScript数组的定义及数字操作技巧

2016/06/06 Javascript

JavaScript中捕获/阻止捕获、冒泡/阻止冒泡方法

2016/12/07 Javascript

Bootstrap CSS布局之表格

2016/12/17 Javascript

js在HTML的三种引用方式详解

2020/08/29 Javascript

vue组件入门知识全梳理

2020/09/21 Javascript

[01:36:19]Secret vs NB 2018国际邀请赛小组赛BO2 第一场 8.19

2018/08/21 DOTA

Python 连接字符串(join %)

2008/09/06 Python

使用Node.js和Socket.IO扩展Django的实时处理功能

2015/04/20 Python

python魔法方法-属性转换和类的表示详解

2016/07/22 Python

python分治法求二维数组局部峰值方法

2018/04/03 Python

Python面向对象类编写细节分析【类,方法,继承,超类,接口等】

2019/01/05 Python

Python人工智能之路 jieba gensim 最好别分家之最简单的相似度实现

2019/08/13 Python

使用虚拟环境打包python为exe 文件的方法

2019/08/29 Python

django创建简单的页面响应实例教程

2019/09/06 Python

Win10下python 2.7与python 3.7双环境安装教程图解

2019/10/12 Python

Django自定义全局403、404、500错误页面的示例代码

2020/03/08 Python

python如何判断IP地址合法性

2020/04/05 Python

python文件编写好后如何实践

2020/07/07 Python

什么是Remote Module

2016/06/10 面试题

2014个人反腐倡廉思想汇报

2014/09/15 职场文书

教师见习总结范文

2015/06/23 职场文书

关于运动会的宣传稿

2015/07/23 职场文书

结婚十年感言

2015/07/31 职场文书

2019森林防火宣传标语大全！

2019/07/03 职场文书

学会Python数据可视化必须尝试这7个库

2021/06/16 Python