python urllib爬取百度云连接的实例代码


Posted in Python onJune 19, 2017

翻看自己以前写的程序,发现写过一个爬取盘多多百度云资源的东西,完全是当时想看变形金刚才自己写的,而且当时第一次接触python大概写了有2天才搞出来这个程序,学习python语言,可以看得出来那时候的代码写的真的low。虽然现在也不怎么样,哈哈,一直学习中,不做过多解释,上图上代码,因为变量的声明是什么我自己也忘了(手动傲娇),连写入文件当时都不会哈哈哈哈哈哈哈哈,也不知道class中可以通过init初始化,唉学习python原来我学到了这么多东西,感谢python

python urllib爬取百度云连接的实例代码

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

''''对搜素资源名字进行url编码'''
search_text =raw_input('请输入搜索资源名:')
search_text = search_text.decode('gbk')
search_text = search_text.encode('utf-8')
search_text = urllib.quote(search_text)


''''获取文件地址'''
home = urllib.urlopen('http://www.panduoduo.net/s/name/'+search_text)


'''获取百度云地址'''
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen('http://www.panduoduo.net'+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select('.dbutton2')
    href = re.compile('http\%(\%|\d|\w|\/\/|\/|\.)*')
    b = href.search(str(bs1))
    name = str(bs.select('.center')).decode('utf-8')
    text1 = re.compile('\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>')
    text2 = text1.search(name)
    rag1 = re.compile('\>[\d|\w|\D|\W]*\<')
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode('utf-8')
      print text

'''初始化'''
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select('.row')
  pattern = re.compile('\/r\/\d+')
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print 'running---------'    
init(adr)
getbaidu(adr)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python检查和同步本地时间(北京时间)的实现方法
Dec 03 Python
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
Feb 17 Python
python实现大文本文件分割
Jul 22 Python
Python检查图片是否损坏及图片类型是否正确过程详解
Sep 30 Python
Python之——生成动态路由轨迹图的实例
Nov 22 Python
Python对Tornado请求与响应的数据处理
Feb 12 Python
django使用F方法更新一个对象多个对象字段的实现
Mar 28 Python
详解Django配置JWT认证方式
May 09 Python
Python中socket网络通信是干嘛的
May 27 Python
python3将变量输入的简单实例
Aug 19 Python
python实现学生信息管理系统(精简版)
Nov 27 Python
python接口自动化框架实战
Dec 23 Python
Python的IDEL增加清屏功能实例
Jun 19 #Python
利用python爬取散文网的文章实例教程
Jun 18 #Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 #Python
python实现各进制转换的总结大全
Jun 18 #Python
Mac 上切换Python多版本
Jun 17 #Python
利用python实现xml与数据库读取转换的方法
Jun 17 #Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 #Python
You might like
PHP实现用户认证及管理完全源码
2007/03/11 PHP
PHP读取数据库并按照中文名称进行排序实现代码
2013/01/29 PHP
基于MySQL分区性能的详细介绍
2013/05/02 PHP
CodeIgniter错误mysql_connect(): No such file or directory解决方法
2014/09/06 PHP
一个完整的PHP类包含的七种语法说明
2015/06/04 PHP
基于OpenCart 开发支付宝,财付通,微信支付参数错误问题
2015/10/01 PHP
php关联数组与索引数组及其显示方法
2018/03/12 PHP
ThinkPHP3.1.2 使用cli命令行模式运行的方法
2020/04/14 PHP
In Javascript Class, how to call the prototype method.(three method)
2007/01/09 Javascript
几种延迟加载JS代码的方法加快网页的访问速度
2013/10/12 Javascript
调试JavaScript中正则表达式中遇到的问题
2015/01/27 Javascript
js点击文本框弹出可选择的checkbox复选框
2016/02/03 Javascript
JS判断浏览器是否安装flash插件的简单方法
2016/09/13 Javascript
js实现省市级联效果分享
2017/08/10 Javascript
解决Vue2.0中使用less给元素添加背景图片出现的问题
2018/09/03 Javascript
vue3.0 CLI - 2.5 - 了解组件的三维
2018/09/14 Javascript
vue+SSM实现验证码功能
2018/12/07 Javascript
babel7.x和webpack4.x配置vue项目的方法步骤
2019/05/12 Javascript
JS window对象简单操作完整示例
2020/01/14 Javascript
python实现下载文件的三种方法
2017/02/09 Python
python中的字典操作及字典函数
2018/01/03 Python
Python cookbook(数据结构与算法)让字典保持有序的方法
2018/02/18 Python
对Pandas DataFrame缺失值的查找与填充示例讲解
2018/11/06 Python
python自动化生成IOS的图标
2018/11/13 Python
python Qt5实现窗体跟踪鼠标移动
2019/12/13 Python
Python实现结构体代码实例
2020/02/10 Python
使用python客户端访问impala的操作方式
2020/03/28 Python
Python连接Hadoop数据中遇到的各种坑(汇总)
2020/04/14 Python
美国浴缸、水槽和水龙头购物网站:Vintage Tub & Bath
2019/11/05 全球购物
北京奥运会口号
2014/06/21 职场文书
国家机关领导干部民主生活会对照检查材料思想汇报
2014/09/17 职场文书
销售经理工作失职检讨书
2014/10/24 职场文书
化验室岗位职责
2015/02/14 职场文书
2015年英语教研组工作总结
2015/05/23 职场文书
教师读书笔记
2015/06/29 职场文书
2016年记者节感言
2015/12/08 职场文书