Python实现登录人人网并抓取新鲜事的方法


Posted in Python onMay 11, 2015

本文实例讲述了Python实现登录人人网并抓取新鲜事的方法。分享给大家供大家参考。具体如下:

这里演示了Python登录人人网并抓取新鲜事的方法(抓取后的排版不太美观~~)

from sgmllib import SGMLParser
import sys,urllib2,urllib,cookielib
class spider(SGMLParser):
  def __init__(self,email,password):
    SGMLParser.__init__(self)
    self.h3=False
    self.h3_is_ready=False
    self.div=False
    self.h3_and_div=False
    self.a=False
    self.depth=0
    self.names=""
    self.dic={}  
    self.email=email
    self.password=password
    self.domain='renren.com'
    try:
      cookie=cookielib.CookieJar()
      cookieProc=urllib2.HTTPCookieProcessor(cookie)
    except:
      raise
    else:
      opener=urllib2.build_opener(cookieProc)
      urllib2.install_opener(opener)    
  def login(self):
    url='http://www.renren.com/PLogin.do'
    postdata={
         'email':self.email,
         'password':self.password,
         'domain':self.domain 
         }
    req=urllib2.Request(
              url,
              urllib.urlencode(postdata)      
              )
    self.file=urllib2.urlopen(req).read()
    #print self.file
  def start_h3(self,attrs):
    self.h3 = True
  def end_h3(self):
    self.h3=False
    self.h3_is_ready=True
  def start_a(self,attrs):
    if self.h3 or self.div:
      self.a=True
  def end_a(self):
    self.a=False
  def start_div(self,attrs):
    if self.h3_is_ready == False:
      return
    if self.div==True:
      self.depth += 1
    for k,v in attrs:
      if k == 'class' and v == 'content':
        self.div=True;
        self.h3_and_div=True  #h3 and div is connected
  def end_div(self):
    if self.depth == 0:
      self.div=False
      self.h3_and_div=False
      self.h3_is_ready=False
      self.names=""
    if self.div == True:
      self.depth-=1
  def handle_data(self,text):
    #record the name
    if self.h3 and self.a:
      self.names+=text
    #record says
    if self.h3 and (self.a==False):
      if not text:pass
      else: self.dic.setdefault(self.names,[]).append(text)
      return
    if self.h3_and_div:
      self.dic.setdefault(self.names,[]).append(text)
  def show(self):
    type = sys.getfilesystemencoding()
    for key in self.dic:
      print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \
         ( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)
renrenspider=spider('your email','your password')
renrenspider.login()
renrenspider.feed(renrenspider.file)
renrenspider.show()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python 调用VC++的动态链接库(DLL)
Sep 06 Python
Python3里的super()和__class__使用介绍
Apr 23 Python
Python中使用装饰器来优化尾递归的示例
Jun 18 Python
Python编程之event对象的用法实例分析
Mar 23 Python
单链表反转python实现代码示例
Feb 08 Python
python实现日常记账本小程序
Mar 10 Python
解决django 新增加用户信息出现错误的问题
Jul 28 Python
python-序列解包(对可迭代元素的快速取值方法)
Aug 24 Python
python打印文件的前几行或最后几行教程
Feb 13 Python
将 Ubuntu 16 和 18 上的 python 升级到最新 python3.8 的方法教程
Mar 11 Python
在Python中字典按值排序的实现方法
Nov 12 Python
Pycharm创建文件时自动生成文件头注释(自定义设置作者日期)
Nov 24 Python
python实现中文输出的两种方法
May 09 #Python
python使用xlrd实现检索excel中某列含有指定字符串记录的方法
May 09 #Python
Python遍历指定文件及文件夹的方法
May 09 #Python
Python使用chardet判断字符编码
May 09 #Python
python操作ie登陆土豆网的方法
May 09 #Python
Python检测QQ在线状态的方法
May 09 #Python
python常见数制转换实例分析
May 09 #Python
You might like
星际中一些鲜为人知的详细资料
2020/03/04 星际争霸
php自定义apk安装包实例
2014/10/20 PHP
php简单实现文件或图片强制下载的方法
2016/12/06 PHP
laravel 事件/监听器实例代码
2019/04/12 PHP
JavaScript表单常用验证集合
2008/01/16 Javascript
使用JQuery和CSS模拟超链接的用户单击事件的实现代码
2012/05/23 Javascript
jquery 按钮状态效果 正常、移上、按下
2013/08/12 Javascript
Bootstrap的图片轮播示例代码
2015/08/31 Javascript
JavaScript实现倒计时代码段Item1(非常实用)
2015/11/03 Javascript
Jquery判断form表单数据是否变化
2016/03/30 Javascript
详解JavaScript表单验证(E-mail 验证)
2016/03/31 Javascript
jq实现左滑显示删除按钮,点击删除实现删除数据功能(推荐)
2016/08/23 Javascript
详解Vue-cli 创建的项目如何跨域请求
2017/05/18 Javascript
jQuery扩展_动力节点Java学院整理
2017/07/05 jQuery
[01:31]DOTA2上海特级锦标赛 SECRET战队完整宣传片
2016/03/16 DOTA
[01:06:26]全国守擂赛第二周 Team Coach vs DeMonsTer
2020/04/28 DOTA
python批量修改文件后缀示例代码分享
2013/12/24 Python
python使用datetime模块计算各种时间间隔的方法
2015/03/24 Python
python pytest进阶之fixture详解
2019/06/27 Python
python3.7 openpyxl 删除指定一列或者一行的代码
2019/10/08 Python
Python如何基于selenium实现自动登录博客园
2019/12/16 Python
基于tf.shape(tensor)和tensor.shape()的区别说明
2020/06/30 Python
CSS3教程(10):CSS3 HSL声明设置颜色
2009/04/02 HTML / CSS
CSS3 @media的基本用法总结
2019/09/10 HTML / CSS
港湾网络笔试题
2014/04/19 面试题
机械设计制造专业个人求职信
2013/09/25 职场文书
大专生毕业的自我评价
2014/02/06 职场文书
银行委托书范本
2014/04/04 职场文书
教师演讲稿开场白
2014/08/25 职场文书
2014最新预备党员思想汇报范文:中国梦,我的梦
2014/10/25 职场文书
入党函调证明材料
2014/12/24 职场文书
人才市场接收函
2015/01/30 职场文书
置业顾问岗位职责
2015/02/09 职场文书
回门宴新娘答谢词
2015/09/29 职场文书
CSS3 制作精美的定价表
2021/04/06 HTML / CSS
CSS使用伪类控制边框长度的方法
2022/01/18 HTML / CSS