Python登录并获取CSDN博客所有文章列表代码实例


Posted in Python onDecember 28, 2017

分析登录过程

这几天研究百度登录和贴吧签到,这百度果然是互联网巨头,一个登录过程都弄得复杂无比,简直有毒。我研究了好几天仍然没搞明白。所以还是先挑一个软柿子捏捏,就选择CSDN了。

过程很简单,我也不截图了。直接打开浏览器,然后打开Fiddler,然后登录CSDN。然后Fiddler显示浏览器向https://passport.csdn.net/account/login?ref=toolbar发送了一个POST请求,这个请求包含了登录表单,而且还是未加密的。当然CSDN本身还是使用了HTTPS,所以安全性还行。

请求体如下,username和password当然是用户名和密码了。

username=XXXXX&password=XXXXXX&rememberMe=true<=LT-461600-wEKpWAqbfZoULXmFmDIulKPbL44hAu&execution=e4s1&_eventId=submit

lt参数我不知道是干啥的,结果直接在页面中一看原来全在表单里头,这下直接全了。CSDN很贴心的连注释都给出了。另外如果你打开百度首页的话,还会发现浏览器的log中还会输出百度的招聘信息。

Python登录并获取CSDN博客所有文章列表代码实例

HTML截图

登录代码

这些信息全有了,这样我们就可以登录了。不说废话,直接上代码。先说说我遇到的几个坑。

首先是一个参数错误,其实逻辑没问题,但是代码我复制粘贴之后忘了改名字了,就登录表单那里,三个参数全弄成了lt,结果登录返回来的页面是错误页面。我还以为是没有附带什么请求头,瞎整了大半天。最后用Fiddler调试了好多遍才发现。

第二个问题就是CSDN鸡贼的跳转。由于浏览器自带了JS引擎,所以我们在浏览器中输入网址,到达页面这一过程不一定就是一个请求。可能中间用了什么JS代码先跳转到中间页面,最后才跳转到实际页面。代码里的_validate_redirect_url(self)函数就是干这个的,登录完了第一次请求会得到一个中间页面,它包含了一堆JS代码,其中有个重定向网址。我们获取到这个重定向网址,还得请求一次,获得200OK之后,后续请求才能获得实际页面。

第三个问题就是正则表达式匹配页面的空格问题了。获取文章首先得知道文章总数,这个好办,直接获取页面里的文章数就行了。它类似100条共20页这个。那么该怎么获取呢?一开始我用的(\d+)条共(\d+)页这个正则,但是结果没匹配到,然后我仔细看了一下页面,原来这两个词之间不是一个空格,而是两个空格!其实这个问题倒是也好办,改一下正则(\d+)条\s*共(\d+)页就行了。所以以后如果遇到空格问题,直接用\s匹配,不要想着自己输入一个空格还是两个空格。

import requests
from bs4 import BeautifulSoup
import re
import urllib.parse as parse


class CsdnHelper:
  """登录CSDN和列出所有文章的类"""
  csdn_login_url = 'https://passport.csdn.net/account/login?ref=toolbar'
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
  }
  blog_url = 'http://write.blog.csdn.net/postlist/'

  def __init__(self):
    self._session = requests.session()
    self._session.headers = CsdnHelper.headers

  def login(self, username, password):
    '''登录主函数'''
    form_data = self._prepare_login_form_data(username, password)
    response = self._session.post(CsdnHelper.csdn_login_url, data=form_data)
    if 'UserNick' in response.cookies:
      nick = response.cookies['UserNick']
      print(parse.unquote(nick))
    else:
      raise Exception('登录失败')

  def _prepare_login_form_data(self, username, password):
    '''从页面获取参数,准备提交表单'''
    response = self._session.get(CsdnHelper.csdn_login_url)
    login_page = BeautifulSoup(response.text, 'lxml')
    login_form = login_page.find('form', id='fm1')

    lt = login_form.find('input', attrs={'name': 'lt'})['value']
    execution = login_form.find('input', attrs={'name': 'execution'})['value']
    eventId = login_form.find('input', attrs={'name': '_eventId'})['value']
    form = {
      'username': username,
      'password': password,
      'lt': lt,
      'execution': execution,
      '_eventId': eventId
    }

    return form

  def _get_blog_count(self):
    '''获取文章数和页数'''
    self._validate_redirect_url()
    response = self._session.get(CsdnHelper.blog_url)
    blog_page = BeautifulSoup(response.text, 'lxml')
    span = blog_page.find('div', class_='page_nav').span
    print(span.string)
    pattern = re.compile(r'(\d+)条\s*共(\d+)页')
    result = pattern.findall(span.string)
    blog_count = int(result[0][0])
    page_count = int(result[0][1])
    return (blog_count, page_count)

  def _validate_redirect_url(self):
    '''验证重定向网页'''
    response = self._session.get(CsdnHelper.blog_url)
    redirect_url = re.findall(r'var redirect = "(\S+)";', response.text)[0]
    self._session.get(redirect_url)

  def print_blogs(self):
    '''输出文章信息'''
    blog_count, page_count = self._get_blog_count()
    for index in range(1, page_count + 1):
      url = f'http://write.blog.csdn.net/postlist/0/0/enabled/{index}'
      response = self._session.get(url)
      page = BeautifulSoup(response.text, 'lxml')
      links = page.find_all('a', href=re.compile(r'http://blog.csdn.net/u011054333/article/details/(\d+)'))
      print(f'----------第{index}页----------')
      for link in links:
        blog_name = link.string
        blog_url = link['href']
        print(f'文章名称:《{blog_name}》 文章链接:{blog_url}')


if __name__ == '__main__':
  csdn_helper = CsdnHelper()
  username = input("请输入用户名")
  password = input("请输入密码")
  csdn_helper.login(username, password)
  csdn_helper.print_blogs()

当然,这里最重要的的就是登录过程了。我们登录之后,才可以做其他事情。比方说,下一步还能写一个备份工具,把CSDN博客的所有文章和图片下载到本地。有兴趣的同学可以试一试。

总结

以上就是本文关于Python登录并获取CSDN博客所有文章列表代码实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python open()文件处理使用介绍
Nov 30 Python
Python入门之modf()方法的使用
May 15 Python
Python 正则表达式的高级用法
Dec 04 Python
python爬虫的工作原理
Mar 05 Python
Python HTTP客户端自定义Cookie实现实例
Apr 28 Python
python爬虫_自动获取seebug的poc实例
Aug 05 Python
python实现图书管理系统
Mar 12 Python
利用Python如何批量更新服务器文件
Jul 29 Python
python处理自动化任务之同时批量修改word里面的内容的方法
Aug 23 Python
python代数式括号有效性检验示例代码
Oct 04 Python
Python操作word文档插入图片和表格的实例演示
Oct 25 Python
Python如何使用ConfigParser读取配置文件
Nov 12 Python
python 寻找优化使成本函数最小的最优解的方法
Dec 28 #Python
python机器学习案例教程——K最近邻算法的实现
Dec 28 #Python
Python实现螺旋矩阵的填充算法示例
Dec 28 #Python
wxPython的安装图文教程(Windows)
Dec 28 #Python
Python制作豆瓣图片的爬虫
Dec 28 #Python
浅谈Python使用Bottle来提供一个简单的web服务
Dec 27 #Python
python编程实现12306的一个小爬虫实例
Dec 27 #Python
You might like
PHP字符转义相关函数小结(php下的转义字符串)
2007/04/12 PHP
DISCUZ在win2003环境下 Unable to access ./include/common.inc.php in... 的问题终极解决方案
2011/11/21 PHP
php中动态变量用法实例
2015/06/10 PHP
JavaScript高级程序设计 读书笔记之八 Function类及闭包
2012/02/27 Javascript
jquery在IE、FF浏览器的差别详细探讨
2013/04/28 Javascript
html+js实现动态显示本地时间
2013/09/21 Javascript
Javascript数组操作函数总结
2015/02/05 Javascript
javascript如何写热点图
2015/12/08 Javascript
jQuery中事件与动画的总结分享
2016/05/24 Javascript
HTML中setCapture、releaseCapture 使用方法浅析
2016/09/25 Javascript
关于List.ToArray()方法的效率测试
2016/09/30 Javascript
JS变量中有var定义和无var定义的区别以及es6中let命令和const命令
2017/02/19 Javascript
jQuery插件HighCharts实现的2D回归直线散点效果示例【附demo源码下载】
2017/03/09 Javascript
Angular.js中ng-include用法及多标签页面的实现方式详解
2017/05/07 Javascript
Vue实现PopupWindow组件详解
2018/04/28 Javascript
angularjs 动态从后台获取下拉框的值方法
2018/08/13 Javascript
jQuery创建折叠式菜单
2019/06/15 jQuery
Vue内部渲染视图的方法
2019/09/02 Javascript
在vue中使用Echarts利用watch做动态数据渲染操作
2020/07/20 Javascript
python 图片验证码代码
2008/12/07 Python
python optparse模块使用实例
2015/04/09 Python
Python绘图Matplotlib之坐标轴及刻度总结
2019/06/28 Python
解决yum对python依赖版本问题
2019/07/05 Python
解决Pycharm 包已经下载,但是运行代码提示找不到模块的问题
2019/08/31 Python
6行Python代码实现进度条效果(Progress、tqdm、alive-progress​​​​​​​和PySimpleGUI库)
2020/01/06 Python
Python交互环境下打印和输入函数的实例内容
2020/02/16 Python
Python图像处理库PIL的ImageDraw模块介绍详解
2020/02/26 Python
python 引用传递和值传递详解(实参,形参)
2020/06/05 Python
当我正在为表建立索引的时候,SQL Server 会禁止对表的访问吗
2014/04/28 面试题
化工专业大学生职业生涯规划书
2014/01/14 职场文书
顶碗少年教学反思
2014/02/21 职场文书
法定代表人授权委托书
2014/04/04 职场文书
公司节能减排倡议书
2014/05/14 职场文书
小学数学教学经验交流材料
2014/05/22 职场文书
《鸡兔同笼》教学反思
2016/02/19 职场文书
小喇叭开始广播了! 四十多年前珍贵老照片
2022/05/09 无线电