编程 Python

基于python实现的抓取腾讯视频所有电影的爬虫

Posted in Python onApril 22, 2016

我搜集了国内10几个电影网站的数据，里面近几十W条记录，用文本没法存，mongodb学习成本非常低，安装、下载、运行起来不会花你5分钟时间。

# -*- coding: utf-8 -*-
# by awakenjoys. my site: www.dianying.at
import re
import urllib2
from bs4 import BeautifulSoup
import string, time
import pymongo
 
NUM  = 0   #全局变量,电影数量
m_type = u''  #全局变量,电影类型
m_site = u'qq' #全局变量,电影网站
 
#根据指定的URL获取网页内容
def gethtml(url):
 req = urllib2.Request(url) 
 response = urllib2.urlopen(req) 
 html = response.read()
 return html
 
#从电影分类列表页面获取电影分类
def gettags(html):
 global m_type
 soup = BeautifulSoup(html)  #过滤出分类内容
 #print soup
 #<ul class="clearfix _group" gname="mi_type" gtype="1">
 tags_all = soup.find_all('ul', {'class' : 'clearfix _group' , 'gname' : 'mi_type'})
 #print len(tags_all), tags_all
 #print str(tags_all[1]).replace('\n', '')
 
 #<a _hot="tag.sub" class="_gtag _hotkey" href="http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>
 re_tags = r'<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>'
 p = re.compile(re_tags, re.DOTALL)
 
 tags = p.findall(str(tags_all[0]))
 if tags:
  tags_url = {}
  #print tags
  for tag in tags:
   tag_url = tag[0].decode('utf-8')
   #print tag_url
   m_type = tag[1].decode('utf-8')
   tags_url[m_type] = tag_url 
    
 else:
   print "Not Find"
 return tags_url
 
#获取每个分类的页数
def get_pages(tag_url):
 tag_html = gethtml(tag_url)
 #div class="paginator
 soup = BeautifulSoup(tag_html)  #过滤出标记页面的html
 #print soup
 #<div class="mod_pagenav" id="pager">
 div_page = soup.find_all('div', {'class' : 'mod_pagenav', 'id' : 'pager'})
 #print div_page #len(div_page), div_page[0]
 
 #<a class="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>
 re_pages = r'<a class=.+?><span>(.+?)</span></a>'
 p = re.compile(re_pages, re.DOTALL)
 pages = p.findall(str(div_page[0]))
 #print pages
 if len(pages) > 1:
  return pages[-2]
 else:
  return 1
  
 
def getmovielist(html):
 soup = BeautifulSoup(html)
 
 #<ul class="mod_list_pic_130">
 divs = soup.find_all('ul', {'class' : 'mod_list_pic_130'})
 #print divs
 for div_html in divs:
  div_html = str(div_html).replace('\n', '')
  #print div_html
  getmovie(div_html)
 
 
def getmovie(html):
 global NUM
 global m_type
 global m_site
 
 #<h6 class="caption"> <a href="http://www.tudou.com/albumcover/Z7eF_40EL4I.html" target="_blank" title="徒步旅行队">徒步旅行队</a> </h6> <ul class="info"> <li class="desc">法国卖座喜剧片</li> <li class="cast"> </li> </ul> </div> <div class="ext ext_last"> <div class="ext_txt"> <h3 class="ext_title">徒步旅行队</h3> <div class="ext_info"> <span class="ext_area">地区: 法国</span> <span class="ext_cast">导演: </span> <span class="ext_date">年代: 2009</span> <span class="ext_type">类型: 喜剧</span> </div> <p class="ext_intro">理查德·达奇拥有一家小的旅游公司，主要经营法国游客到非洲大草原的旅游服务。六个法国游客决定参加理查德·达奇组织的到非洲的一...</p>
 
 re_movie = r'<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>'
 p = re.compile(re_movie, re.DOTALL)
 movies = p.findall(html)
 if movies:
  conn = pymongo.Connection('localhost', 27017)
  movie_db = conn.dianying
  playlinks = movie_db.playlinks
  #print movies
  for movie in movies:
   #print movie
   NUM += 1
   print "%s : %d" % ("=" * 70, NUM)
   values = dict(
    movie_title = movie[1],
    movie_url = movie[0],
    movie_site  = m_site,
    movie_type  = m_type
    )
   print values
   playlinks.insert(values)
   print "_" * 70
   NUM += 1
   print "%s : %d" % ("=" * 70, NUM)
 
 #else:
 # print "Not Find"
 
def getmovieinfo(url):
 html = gethtml(url)
 soup = BeautifulSoup(html)
 
 #pack pack_album album_cover
 divs = soup.find_all('div', {'class' : 'pack pack_album album_cover'})
 #print divs[0]
 
 #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a> 
 re_info = r'<a href=\"(.+?)\" target=\"new\" title=\"(.+?)\" wl=\".+?\"> </a>'
 p_info = re.compile(re_info, re.DOTALL)
 m_info = p_info.findall(str(divs[0]))
 if m_info:
  return m_info
 else:
  print "Not find movie info"
 
 return m_info
 
 
def insertdb(movieinfo):
 global conn
 movie_db = conn.dianying_at
 movies = movie_db.movies
 movies.insert(movieinfo)
 
if __name__ == "__main__":
 global conn
 
 tags_url = "http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"
 #print tags_url
 tags_html = gethtml(tags_url)
 #print tags_html
 tag_urls = gettags(tags_html)
 #print tag_urls
 
 
 for url in tag_urls.items():
  print str(url[1]).encode('utf-8') #,url[0]
  maxpage = int(get_pages(str(url[1]).encode('utf-8')))
  print maxpage
 
  for x in range(0, maxpage):
   #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html
   m_url = str(url[1]).replace('0_20_0_-1_0.html', '')
   movie_url = "%s%d_20_0_-1_0.html" % (m_url, x)
   print movie_url
   movie_html = gethtml(movie_url.encode('utf-8'))
   #print movie_html
   getmovielist(movie_html)
   time.sleep(0.1)

- Author -

mdxy-dxy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用scrapy解析js示例

Jan 23 Python

python 调用HBase的简单实例

Dec 18 Python

Python编程之字符串模板(Template)用法实例分析

Jul 22 Python

python并发2之使用asyncio处理并发

Dec 21 Python

ubuntu安装sublime3并配置python3环境的方法

Mar 15 Python

python在每个字符后添加空格的实例

May 07 Python

python write无法写入文件的解决方法

Jan 23 Python

python 检查数据中是否有缺失值,删除缺失值的方式

Dec 02 Python

详解Python中的分支和循环结构

Feb 11 Python

python开发实例之python使用Websocket库开发简单聊天工具实例详解(python+Websocket+JS)

Mar 18 Python

使用PyQt的QLabel组件实现选定目标框功能的方法示例

May 19 Python

python爬虫请求库httpx和parsel解析库的使用测评

May 10 Python

Python开发之快速搭建自动回复微信公众号功能

Apr 22 #Python

Django小白教程之Django用户注册与登录

Apr 22 #Python

python中PIL安装简单教程

Apr 21 #Python

Python for Informatics 第11章之正则表达式（四）

Apr 21 #Python

Python for Informatics 第11章之正则表达式（二）

Apr 21 #Python

Python for Informatics 第11章正则表达式(一)

Apr 21 #Python

编写Python爬虫抓取暴走漫画上gif图片的实例分享

Apr 20 #Python

You might like

Dedecms常用函数解析

2008/02/01 PHP

PHP 数据结构算法描述冒泡排序 bubble sort

2011/07/10 PHP

基于php-fpm 参数的深入理解

2013/06/03 PHP

PHP使用缓存即时输出内容(output buffering)的方法

2015/08/03 PHP

PHP url的pathinfo模式加载不同控制器的简单实现

2016/08/12 PHP

PHP编程实现计算抽奖概率算法完整实例

2017/08/09 PHP

JavaScript中的值类型转换介绍

2014/12/31 Javascript

jQuery处理图片加载失败的常用方法

2015/06/08 Javascript

js+css实现文字散开重组动画特效代码分享

2015/08/21 Javascript

Bootstrap树形控件使用方法详解

2016/01/27 Javascript

ES6数组的扩展详解

2017/04/25 Javascript

BootStrap Table 后台数据绑定、特殊列处理、排序功能

2017/05/27 Javascript

vue实现一个移动端屏蔽滑动的遮罩层实例

2017/06/08 Javascript

vue-cli常用设置总结

2018/02/24 Javascript

centos 上快速搭建ghost博客方法分享

2018/05/23 Javascript

vue自定v-model实现表单数据双向绑定问题

2018/09/03 Javascript

jQuery表单元素过滤选择器用法实例分析

2019/02/20 jQuery

elementUI Tree 树形控件的官方使用文档

2019/04/25 Javascript

[00:56]2014DOTA2国际邀请赛 DK、iG 赛前探访

2014/07/10 DOTA

python实现通过shelve修改对象实例

2014/09/26 Python

Python实现读取机器硬件信息的方法示例

2018/06/09 Python

Python对excel文档的操作方法详解

2018/12/10 Python

对django 模型 unique together的示例讲解

2019/08/06 Python

python连接mysql有哪些方法

2020/06/24 Python

Python大批量搜索引擎图像爬虫工具详解

2020/11/16 Python

使用CSS3来绘制一个月食图案

2015/07/18 HTML / CSS

html5指南-4.使用Geolocation实现定位功能

2013/01/07 HTML / CSS

有个性的自我评价范文

2013/11/15 职场文书

前台接待员岗位职责

2014/01/02 职场文书

大学生就业自荐书

2014/06/16 职场文书

教师四风自我剖析材料

2014/09/30 职场文书

2015年政府采购工作总结

2015/05/21 职场文书

施工安全责任协议书

2016/03/23 职场文书

标准演讲稿格式结尾应该怎么书写？

2019/07/17 职场文书

广告策划的实习心得体会总结！

2019/07/22 职场文书

python自动化测试之Selenium详解

2022/03/13 Python