使用python实现抓取腾讯视频所有电影的爬虫


Posted in Python onApril 15, 2019

用python实现的抓取腾讯视频所有电影的爬虫

# -*- coding: utf-8 -*-
import re
import urllib2
from bs4import BeautifulSoup
import string, time
import pymongo
NUM   =0 #全局变量,电影数量
m_type = u'' #全局变量,电影类型
m_site = u'qq' #全局变量,电影网站
#根据指定的URL获取网页内容
def gethtml(url):
  req = urllib2.Request(url)
  response = urllib2.urlopen(req)
  html = response.read()
  return html
#从电影分类列表页面获取电影分类
def gettags(html):
  global m_type
  soup = BeautifulSoup(html)   #过滤出分类内容
  #print soup
  #<ulclass="clearfix _group" gname="mi_type" gtype="1">
  tags_all = soup.find_all('ul', {'class' :'clearfix _group' ,'gname' :'mi_type'})
  #print len(tags_all), tags_all
  #print str(tags_all[1]).replace('\n','')
  #<a _hot="tag.sub" class="_gtag _hotkey" href="http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>
  re_tags = r'<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>'
  p = re.compile(re_tags, re.DOTALL)
  tags = p.findall(str(tags_all[0]))
  if tags:
    tags_url = {}
    #print tags
    for tagin tags:
      tag_url = tag[0].decode('utf-8')
      #print tag_url
      m_type = tag[1].decode('utf-8')
      tags_url[m_type] = tag_url
  else:
      print"Not Find"
  return tags_url
#获取每个分类的页数
def get_pages(tag_url):
  tag_html = gethtml(tag_url)
  #divclass="paginator
  soup = BeautifulSoup(tag_html)   #过滤出标记页面的html
  #print soup
  #<divclass="mod_pagenav" id="pager">
  div_page = soup.find_all('div', {'class' :'mod_pagenav','id' :'pager'})
  #print div_page #len(div_page), div_page[0]
  #<aclass="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>
  re_pages = r'<a class=.+?><span>(.+?)</span></a>'
  p = re.compile(re_pages, re.DOTALL)
  pages = p.findall(str(div_page[0]))
  #print pages
  if len(pages) >1:
    return pages[-2]
  else:
    return 1
def getmovielist(html):
  soup = BeautifulSoup(html)
  #<ulclass="mod_list_pic_130">
  divs = soup.find_all('ul', {'class' :'mod_list_pic_130'})
  #print divs
  for div_htmlin divs:
    div_html = str(div_html).replace('\n','')
    #print div_html
    getmovie(div_html)
def getmovie(html):
  global NUM
  global m_type
  global m_site
  re_movie = r'<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>'
  p = re.compile(re_movie, re.DOTALL)
  movies = p.findall(html)
  if movies:
    conn = pymongo.Connection('localhost',27017)
    movie_db = conn.dianying
    playlinks = movie_db.playlinks
    #print movies
    for moviein movies:
      #print movie
      NUM +=1
      print"%s : %d" % ("=" *70, NUM)
      values = dict(
        movie_title = movie[1],
        movie_url  = movie[0],
        movie_site   = m_site,
        movie_type   = m_type
        )
      print values
      playlinks.insert(values)
      print"_" *70
      NUM +=1
      print"%s : %d" % ("=" *70, NUM)
  #else:
  #  print"Not Find"
def getmovieinfo(url):
  html = gethtml(url)
  soup = BeautifulSoup(html)
  #pack pack_album album_cover
  divs = soup.find_all('div', {'class' :'pack pack_album album_cover'})
  #print divs[0]
  #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a>
  re_info = r'<a href=\"(.+?)\" target=\"new\" title=\"(.+?)\" wl=\".+?\"> </a>'
  p_info = re.compile(re_info, re.DOTALL)
  m_info = p_info.findall(str(divs[0]))
  if m_info:
    return m_info
  else:
    print"Not find movie info"
  return m_info
def insertdb(movieinfo):
  global conn
  movie_db = conn.dianying_at
  movies = movie_db.movies
  movies.insert(movieinfo)
if __name__ =="__main__":
  global conn
  tags_url ="http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"
  #print tags_url
  tags_html = gethtml(tags_url)
  #print tags_html
  tag_urls = gettags(tags_html)
  #print tag_urls
  for urlin tag_urls.items():
    print str(url[1]).encode('utf-8') #,url[0]
    maxpage =int(get_pages(str(url[1]).encode('utf-8')))
    print maxpage
    for xin range(0, maxpage):
      #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html
      m_url = str(url[1]).replace('0_20_0_-1_0.html','')
      movie_url ="%s%d_20_0_-1_0.html" % (m_url, x)
      print movie_url
      movie_html = gethtml(movie_url.encode('utf-8'))
      #print movie_html
      getmovielist(movie_html)
      time.sleep(0.1)

总结

以上所述是小编给大家介绍的使用python实现抓取腾讯视频所有电影的爬虫,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
在Python程序中进行文件读取和写入操作的教程
Apr 28 Python
Python实现根据IP地址和子网掩码算出网段的方法
Jul 30 Python
python使用标准库根据进程名如何获取进程的pid详解
Oct 31 Python
Scrapy框架CrawlSpiders的介绍以及使用详解
Nov 29 Python
Python排序搜索基本算法之冒泡排序实例分析
Dec 09 Python
windows下Virtualenvwrapper安装教程
Dec 13 Python
python中字符串比较使用is、==和cmp()总结
Mar 18 Python
python随机数分布random均匀分布实例
Nov 27 Python
浅谈PyQt5中异步刷新UI和Python多线程总结
Dec 13 Python
以SQLite和PySqlite为例来学习Python DB API
Feb 05 Python
Pycharm的Available Packages为空的解决方法
Sep 18 Python
Python机器学习之PCA降维算法详解
May 19 Python
Python 编程速成(推荐)
Apr 15 #Python
值得收藏的10道python 面试题
Apr 15 #Python
Python 学习教程之networkx
Apr 15 #Python
Python OS模块实例详解
Apr 15 #Python
Python日期时间Time模块实例详解
Apr 15 #Python
Python3.6中Twisted模块安装的问题与解决
Apr 15 #Python
python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比
Apr 15 #Python
You might like
PHP STRING 陷阱原理说明
2010/07/24 PHP
提高PHP编程效率的53个要点(经验小结)
2010/09/04 PHP
php简单浏览目录内容的实现代码
2013/06/07 PHP
解析php中用PHPMailer来发送邮件的示例(126.com的例子)
2013/06/24 PHP
php实现购物车功能(以大苹果购物网为例)
2017/03/09 PHP
PHP设计模式之组合模式定义与应用示例
2020/02/01 PHP
文本加密解密
2006/06/23 Javascript
List the Codec Files on a Computer
2007/06/11 Javascript
jQuery fadeTo方法调整图片的透明度使用介绍
2013/05/06 Javascript
JavaScript代码里的判断小结
2016/08/22 Javascript
微信小程序 富文本转文本实例详解
2016/10/24 Javascript
JavaScript你不知道的一些数组方法
2017/08/18 Javascript
Vue中之nextTick函数源码分析详解
2017/10/17 Javascript
使用Vue-cli 3.0搭建Vue项目的方法
2018/06/07 Javascript
小程序云开发如何实现图片上传及发表文字
2019/05/17 Javascript
JavaScript数组排序的六种常见算法总结
2020/08/18 Javascript
使用Python操作MySQL的一些基本方法
2015/08/16 Python
Python yield 使用方法浅析
2017/05/20 Python
20行python代码实现人脸识别
2019/05/05 Python
Python简单处理坐标排序问题示例
2019/07/11 Python
python实现美团订单推送到测试环境,提供便利操作示例
2019/08/09 Python
一行Python代码过滤标点符号等特殊字符
2019/08/12 Python
python 根据网易云歌曲的ID 直接下载歌曲的实例
2019/08/24 Python
python列表删除和多重循环退出原理详解
2020/03/26 Python
Python实现在线批量美颜功能过程解析
2020/06/10 Python
阿迪达斯英国官方网站:adidas英国
2019/08/13 全球购物
经理秘书岗位职责
2013/11/14 职场文书
财务出纳岗位职责
2014/02/03 职场文书
竞选演讲稿范文大全
2014/05/12 职场文书
大学生活动总结模板
2014/07/02 职场文书
不服从公司安排检讨书
2014/09/24 职场文书
2014会计年终工作总结
2014/12/20 职场文书
少先队工作总结2015
2015/05/13 职场文书
2019新员工试用期转正工作总结范文
2019/08/21 职场文书
IDEA使用SpringAssistant插件创建SpringCloud项目
2021/06/23 Java/Android
Mysql将字符串按照指定字符分割的正确方法
2022/05/30 MySQL