python urllib爬取百度云连接的实例代码


Posted in Python onJune 19, 2017

翻看自己以前写的程序,发现写过一个爬取盘多多百度云资源的东西,完全是当时想看变形金刚才自己写的,而且当时第一次接触python大概写了有2天才搞出来这个程序,学习python语言,可以看得出来那时候的代码写的真的low。虽然现在也不怎么样,哈哈,一直学习中,不做过多解释,上图上代码,因为变量的声明是什么我自己也忘了(手动傲娇),连写入文件当时都不会哈哈哈哈哈哈哈哈,也不知道class中可以通过init初始化,唉学习python原来我学到了这么多东西,感谢python

python urllib爬取百度云连接的实例代码

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

''''对搜素资源名字进行url编码'''
search_text =raw_input('请输入搜索资源名:')
search_text = search_text.decode('gbk')
search_text = search_text.encode('utf-8')
search_text = urllib.quote(search_text)


''''获取文件地址'''
home = urllib.urlopen('http://www.panduoduo.net/s/name/'+search_text)


'''获取百度云地址'''
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen('http://www.panduoduo.net'+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select('.dbutton2')
    href = re.compile('http\%(\%|\d|\w|\/\/|\/|\.)*')
    b = href.search(str(bs1))
    name = str(bs.select('.center')).decode('utf-8')
    text1 = re.compile('\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>')
    text2 = text1.search(name)
    rag1 = re.compile('\>[\d|\w|\D|\W]*\<')
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode('utf-8')
      print text

'''初始化'''
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select('.row')
  pattern = re.compile('\/r\/\d+')
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print 'running---------'    
init(adr)
getbaidu(adr)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python计算已经过去多少个周末的方法
Jul 25 Python
Python实现的选择排序算法原理与用法实例分析
Nov 22 Python
pandas 将索引值相加的方法
Nov 15 Python
Python 支付整合开发包的实现
Jan 23 Python
python flask解析json数据不完整的解决方法
May 26 Python
如何基于Python批量下载音乐
Nov 11 Python
使用python-opencv读取视频,计算视频总帧数及FPS的实现
Dec 10 Python
python如何写try语句
Jul 14 Python
python 爬虫网页登陆的简单实现
Nov 30 Python
python实现学生通讯录管理系统
Feb 25 Python
基于python的matplotlib制作双Y轴图
Apr 20 Python
Python 如何安装Selenium
May 06 Python
Python的IDEL增加清屏功能实例
Jun 19 #Python
利用python爬取散文网的文章实例教程
Jun 18 #Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 #Python
python实现各进制转换的总结大全
Jun 18 #Python
Mac 上切换Python多版本
Jun 17 #Python
利用python实现xml与数据库读取转换的方法
Jun 17 #Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 #Python
You might like
php重定向的三种方法分享
2012/02/22 PHP
深入php socket的讲解与实例分析
2013/06/13 PHP
php出现web系统多域名登录失败的解决方法
2014/09/30 PHP
php获取YouTube视频信息的方法
2015/02/11 PHP
php导入模块文件分享
2015/03/17 PHP
PHP中Array相关函数简介
2016/07/03 PHP
laravel 框架结合关联查询 when()用法分析
2019/11/22 PHP
jQuery 剧场版 你必须知道的javascript
2009/05/27 Javascript
基于jquery的设置页面文本框 只能输入数字的实现代码
2011/04/19 Javascript
jquery弹出层类代码分享
2013/12/27 Javascript
利用try-catch判断变量是已声明未声明还是未赋值
2014/03/12 Javascript
Angularjs基础知识及示例汇总
2015/01/22 Javascript
JavaScript第一篇之实现按钮全选、功能
2016/08/21 Javascript
Angular实现点击按钮后在上方显示输入内容的方法
2017/12/27 Javascript
js传递数组参数到后台controller的方法
2018/03/29 Javascript
深入剖析Node.js cluster模块
2018/05/23 Javascript
Vue+webpack项目配置便于维护的目录结构教程详解
2018/10/14 Javascript
vue router 通过路由来实现切换头部标题功能
2019/04/24 Javascript
jQuery实现checkbox全选、反选及删除等操作的方法详解
2019/08/02 jQuery
js 实现 list转换成tree的方法示例(数组到树)
2019/08/18 Javascript
Element Carousel 走马灯的具体实现
2020/07/26 Javascript
python 请求服务器的实现代码(http请求和https请求)
2018/05/25 Python
基于DataFrame改变列类型的方法
2018/07/25 Python
浅谈解除装饰器作用(python3新增)
2018/10/15 Python
python 计算积分图和haar特征的实例代码
2019/11/20 Python
python中读入二维csv格式的表格方法详解(以元组/列表形式表示)
2020/04/24 Python
matplotlib部件之套索Lasso的使用
2021/02/24 Python
CSS3 mask 遮罩的具体使用方法
2017/11/03 HTML / CSS
canvas绘图按照contain或者cover方式适配并居中显示
2019/02/18 HTML / CSS
英国最受欢迎的手表网站:Watch Shop
2016/10/21 全球购物
IWOOT美国:新奇的小玩意
2018/04/27 全球购物
New delete 与malloc free 的联系与区别
2013/02/04 面试题
2014年收银工作总结
2014/11/13 职场文书
中国现代文学之经典散文三篇
2019/09/18 职场文书
go原生库的中bytes.Buffer用法
2021/04/25 Golang
python如何利用traceback获取详细的异常信息
2021/06/05 Python