python urllib爬取百度云连接的实例代码


Posted in Python onJune 19, 2017

翻看自己以前写的程序,发现写过一个爬取盘多多百度云资源的东西,完全是当时想看变形金刚才自己写的,而且当时第一次接触python大概写了有2天才搞出来这个程序,学习python语言,可以看得出来那时候的代码写的真的low。虽然现在也不怎么样,哈哈,一直学习中,不做过多解释,上图上代码,因为变量的声明是什么我自己也忘了(手动傲娇),连写入文件当时都不会哈哈哈哈哈哈哈哈,也不知道class中可以通过init初始化,唉学习python原来我学到了这么多东西,感谢python

python urllib爬取百度云连接的实例代码

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

''''对搜素资源名字进行url编码'''
search_text =raw_input('请输入搜索资源名:')
search_text = search_text.decode('gbk')
search_text = search_text.encode('utf-8')
search_text = urllib.quote(search_text)


''''获取文件地址'''
home = urllib.urlopen('http://www.panduoduo.net/s/name/'+search_text)


'''获取百度云地址'''
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen('http://www.panduoduo.net'+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select('.dbutton2')
    href = re.compile('http\%(\%|\d|\w|\/\/|\/|\.)*')
    b = href.search(str(bs1))
    name = str(bs.select('.center')).decode('utf-8')
    text1 = re.compile('\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>')
    text2 = text1.search(name)
    rag1 = re.compile('\>[\d|\w|\D|\W]*\<')
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode('utf-8')
      print text

'''初始化'''
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select('.row')
  pattern = re.compile('\/r\/\d+')
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print 'running---------'    
init(adr)
getbaidu(adr)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python计算三角函数之asin()方法的使用
May 15 Python
python从入门到精通(DAY 1)
Dec 20 Python
Python爬虫代理IP池实现方法
Jan 05 Python
CentOS下使用yum安装python-pip失败的完美解决方法
Aug 16 Python
python利用paramiko连接远程服务器执行命令的方法
Oct 16 Python
对Python3中的input函数详解
Apr 22 Python
Python中pandas dataframe删除一行或一列:drop函数详解
Jul 03 Python
Python学习笔记之视频人脸检测识别实例教程
Mar 06 Python
Python 脚本实现淘宝准点秒杀功能
Nov 13 Python
如何使用Python发送HTML格式的邮件
Feb 11 Python
python 装饰器的实际作用有哪些
Sep 07 Python
基于Django集成CAS实现流程详解
Nov 28 Python
Python的IDEL增加清屏功能实例
Jun 19 #Python
利用python爬取散文网的文章实例教程
Jun 18 #Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 #Python
python实现各进制转换的总结大全
Jun 18 #Python
Mac 上切换Python多版本
Jun 17 #Python
利用python实现xml与数据库读取转换的方法
Jun 17 #Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 #Python
You might like
php 中文字符入库或显示乱码问题的解决方法
2010/04/12 PHP
mysql 查询指定日期时间内sql语句实现原理与代码
2012/12/16 PHP
简单的php数据库操作类代码(增,删,改,查)
2013/04/08 PHP
Zend的MVC机制使用分析(一)
2013/05/02 PHP
PHP封装的Twitter访问类实例
2015/07/18 PHP
php表单处理操作
2017/11/16 PHP
基于jquery的$.ajax async使用
2011/10/19 Javascript
用客户端js实现带省略号的分页
2013/04/27 Javascript
ExtJs中gridpanel分组后组名排序实例代码
2013/12/02 Javascript
js this函数调用无需再次抓获id,name或标签名
2014/03/03 Javascript
javascript基本包装类型介绍
2015/04/10 Javascript
JavaScript包装对象使用详解
2015/07/09 Javascript
JavaScript中最容易混淆的作用域、提升、闭包知识详解(推荐)
2016/09/05 Javascript
js中scrollTop()方法和scroll()方法用法示例
2016/10/03 Javascript
使用Browserify来实现CommonJS的浏览器加载方法
2017/05/14 Javascript
详解Vue文档中几个易忽视部分的剖析
2018/03/24 Javascript
详解js的视频和音频采集
2018/08/09 Javascript
微信小程序websocket聊天室的实现示例代码
2019/02/12 Javascript
layer.prompt使文本框为空的情况下也能点击确定的方法
2019/09/24 Javascript
jQuery实时统计输入框字数及限制
2020/06/24 jQuery
JS canvas实现画板和签字板功能
2021/02/23 Javascript
Django中使用group_by的方法
2015/05/26 Python
详解python的几种标准输出重定向方式
2016/08/15 Python
python 数据清洗之数据合并、转换、过滤、排序
2017/02/12 Python
python实现连续图文识别
2018/12/18 Python
Python3最长回文子串算法示例
2019/03/04 Python
Puppeteer使用示例详解
2019/06/20 Python
python程序快速缩进多行代码方法总结
2019/06/23 Python
FFT快速傅里叶变换的python实现过程解析
2019/10/21 Python
详解Python 实现 ZeroMQ 的三种基本工作模式
2020/03/24 Python
python如何保存文本文件
2020/06/07 Python
Prometheus开发中间件Exporter过程详解
2020/11/30 Python
微软香港官网及网上商店:Microsoft HK
2016/09/01 全球购物
上课迟到检讨书
2015/05/06 职场文书
nginx简单配置多个server的方法
2021/03/31 Servers
python使用shell脚本创建kafka连接器
2022/04/29 Python