python urllib爬取百度云连接的实例代码


Posted in Python onJune 19, 2017

翻看自己以前写的程序,发现写过一个爬取盘多多百度云资源的东西,完全是当时想看变形金刚才自己写的,而且当时第一次接触python大概写了有2天才搞出来这个程序,学习python语言,可以看得出来那时候的代码写的真的low。虽然现在也不怎么样,哈哈,一直学习中,不做过多解释,上图上代码,因为变量的声明是什么我自己也忘了(手动傲娇),连写入文件当时都不会哈哈哈哈哈哈哈哈,也不知道class中可以通过init初始化,唉学习python原来我学到了这么多东西,感谢python

python urllib爬取百度云连接的实例代码

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

''''对搜素资源名字进行url编码'''
search_text =raw_input('请输入搜索资源名:')
search_text = search_text.decode('gbk')
search_text = search_text.encode('utf-8')
search_text = urllib.quote(search_text)


''''获取文件地址'''
home = urllib.urlopen('http://www.panduoduo.net/s/name/'+search_text)


'''获取百度云地址'''
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen('http://www.panduoduo.net'+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select('.dbutton2')
    href = re.compile('http\%(\%|\d|\w|\/\/|\/|\.)*')
    b = href.search(str(bs1))
    name = str(bs.select('.center')).decode('utf-8')
    text1 = re.compile('\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>')
    text2 = text1.search(name)
    rag1 = re.compile('\>[\d|\w|\D|\W]*\<')
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode('utf-8')
      print text

'''初始化'''
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select('.row')
  pattern = re.compile('\/r\/\d+')
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print 'running---------'    
init(adr)
getbaidu(adr)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python笔记(1) 关于我们应不应该继续学习python
Oct 24 Python
Python进行数据科学工作的简单入门教程
Apr 01 Python
老生常谈python的私有公有属性(必看篇)
Jun 09 Python
浅谈用Python实现一个大数据搜索引擎
Nov 28 Python
Python+Pandas 获取数据库并加入DataFrame的实例
Jul 25 Python
tesserocr与pytesseract模块的使用方法解析
Aug 30 Python
Python Django框架url反向解析实现动态生成对应的url链接示例
Oct 18 Python
python 解决flask 图片在线浏览或者直接下载的问题
Jan 09 Python
Python中关于logging模块的学习笔记
Jun 03 Python
基于python+selenium自动健康打卡的实现代码
Jan 13 Python
python通配符之glob模块的使用详解
Apr 24 Python
Python Pandas模块实现数据的统计分析的方法
Jun 24 Python
Python的IDEL增加清屏功能实例
Jun 19 #Python
利用python爬取散文网的文章实例教程
Jun 18 #Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 #Python
python实现各进制转换的总结大全
Jun 18 #Python
Mac 上切换Python多版本
Jun 17 #Python
利用python实现xml与数据库读取转换的方法
Jun 17 #Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 #Python
You might like
PHP全概率运算函数(优化版) Webgame开发必备
2011/07/04 PHP
iis下php mail函数的sendmail配置方法(官方推荐)
2012/04/25 PHP
解析php file_exists无效的解决办法
2013/06/26 PHP
php使用$_POST或$_SESSION[]向js函数传参
2014/09/16 PHP
CI框架附属类用法分析
2018/12/26 PHP
微信公众平台开发教程⑤ 微信扫码支付模式介绍
2019/04/10 PHP
js no-repeat写法 背景不重复
2009/03/18 Javascript
基于jQuery的公告无限循环滚动实现代码
2012/05/11 Javascript
javascript编码的几个方法详细介绍
2013/01/06 Javascript
jQuery及JS实现循环中暂停的方法
2015/02/02 Javascript
AngularJS表达式讲解及示例代码
2016/08/16 Javascript
基于js实现的限制文本框只可以输入数字
2016/12/05 Javascript
jQuery中hover方法搭配css的hover选择器,实现选中元素突出显示方法
2017/05/08 jQuery
p5.js入门教程之平滑过渡(Easing)
2018/03/16 Javascript
基于Bootstrap下拉框插件bootstrap-select使用方法详解
2018/08/07 Javascript
开源一个微信小程序仪表盘组件过程解析
2019/07/30 Javascript
[04:48]DOTA2上海特锦赛小组赛第三日 TOP10精彩集锦
2016/02/28 DOTA
Python语言技巧之三元运算符使用介绍
2013/03/04 Python
Python使用jsonpath-rw模块处理Json对象操作示例
2018/07/31 Python
python try except 捕获所有异常的实例
2018/10/18 Python
python super的使用方法及实例详解
2019/09/25 Python
Python求正态分布曲线下面积实例
2019/11/20 Python
Python中类似于jquery的pyquery库用法分析
2019/12/02 Python
解决Jupyter无法导入已安装的 module问题
2020/04/17 Python
Numpy ndarray 多维数组对象的使用
2021/02/10 Python
css3 伪元素和伪类选择器详解
2014/09/04 HTML / CSS
使用html5 canvas绘制圆环动效
2019/06/03 HTML / CSS
几道Web/Ajax的面试题
2016/11/05 面试题
2014年幼儿园元旦活动方案
2014/02/13 职场文书
班长竞选演讲稿
2014/04/24 职场文书
拾金不昧感谢信范文
2015/01/21 职场文书
慰问信格式
2015/02/14 职场文书
郭明义电影观后感
2015/06/08 职场文书
Java新手教程之ArrayList的基本使用
2021/06/20 Java/Android
python 镜像环境搭建总结
2022/09/23 Python
CentOS7设置ssh服务以及端口修改方式
2022/12/24 Servers