python urllib爬取百度云连接的实例代码


Posted in Python onJune 19, 2017

翻看自己以前写的程序,发现写过一个爬取盘多多百度云资源的东西,完全是当时想看变形金刚才自己写的,而且当时第一次接触python大概写了有2天才搞出来这个程序,学习python语言,可以看得出来那时候的代码写的真的low。虽然现在也不怎么样,哈哈,一直学习中,不做过多解释,上图上代码,因为变量的声明是什么我自己也忘了(手动傲娇),连写入文件当时都不会哈哈哈哈哈哈哈哈,也不知道class中可以通过init初始化,唉学习python原来我学到了这么多东西,感谢python

python urllib爬取百度云连接的实例代码

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

''''对搜素资源名字进行url编码'''
search_text =raw_input('请输入搜索资源名:')
search_text = search_text.decode('gbk')
search_text = search_text.encode('utf-8')
search_text = urllib.quote(search_text)


''''获取文件地址'''
home = urllib.urlopen('http://www.panduoduo.net/s/name/'+search_text)


'''获取百度云地址'''
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen('http://www.panduoduo.net'+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select('.dbutton2')
    href = re.compile('http\%(\%|\d|\w|\/\/|\/|\.)*')
    b = href.search(str(bs1))
    name = str(bs.select('.center')).decode('utf-8')
    text1 = re.compile('\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>')
    text2 = text1.search(name)
    rag1 = re.compile('\>[\d|\w|\D|\W]*\<')
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode('utf-8')
      print text

'''初始化'''
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select('.row')
  pattern = re.compile('\/r\/\d+')
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print 'running---------'    
init(adr)
getbaidu(adr)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python打开url并按指定块读取网页内容的方法
Apr 29 Python
用Python实现web端用户登录和注册功能的教程
Apr 30 Python
Python简明入门教程
Aug 04 Python
详解Python编程中包的概念与管理
Oct 16 Python
详解Python中最难理解的点-装饰器
Apr 03 Python
python 中split 和 strip的实例详解
Jul 12 Python
Django错误:TypeError at / 'bool' object is not callable解决
Aug 16 Python
Python3+Requests+Excel完整接口自动化测试框架的实现
Oct 11 Python
python使用配置文件过程详解
Dec 28 Python
使用Pycharm在运行过程中,查看每个变量的操作(show variables)
Jun 08 Python
Matplotlib中rcParams使用方法
Jan 05 Python
python函数的两种嵌套方法使用
Apr 02 Python
Python的IDEL增加清屏功能实例
Jun 19 #Python
利用python爬取散文网的文章实例教程
Jun 18 #Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 #Python
python实现各进制转换的总结大全
Jun 18 #Python
Mac 上切换Python多版本
Jun 17 #Python
利用python实现xml与数据库读取转换的方法
Jun 17 #Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 #Python
You might like
PHP中递归的实现实例详解
2017/11/14 PHP
PHP自定义序列化接口Serializable用法分析
2017/12/29 PHP
PHP延迟静态绑定的深入讲解
2018/04/02 PHP
Jquery Ajax的Get方式时需要注意URL地方
2011/04/07 Javascript
node.js中的buffer.fill方法使用说明
2014/12/14 Javascript
jQuery中closest()函数用法实例
2015/01/07 Javascript
JS实现灵巧的下拉导航效果代码
2015/08/25 Javascript
详解JavaScript基于面向对象之继承
2015/12/13 Javascript
JS实现的倒计时效果实例(2则实例)
2015/12/23 Javascript
修改jquery中dialog的title属性方法(推荐)
2016/08/26 Javascript
Angular 理解module和injector,即依赖注入
2016/09/07 Javascript
jQuery使用siblings获取某元素所有同辈(兄弟姐妹)元素用法示例
2017/01/30 Javascript
详解webpack分离css单独打包
2017/06/21 Javascript
react 应用多入口配置及实践总结
2018/10/17 Javascript
vue cli3 调用百度翻译API翻译页面的实现示例
2019/09/13 Javascript
vue $router和$route的区别详解
2020/12/02 Vue.js
用Python实现协同过滤的教程
2015/04/08 Python
使用基于Python的Tornado框架的HTTP客户端的教程
2015/04/24 Python
通过 Python 和 OpenCV 实现目标数量监控
2020/01/05 Python
Keras中的多分类损失函数用法categorical_crossentropy
2020/06/11 Python
可视化pytorch 模型中不同BN层的running mean曲线实例
2020/06/24 Python
学python最电脑配置有要求么
2020/07/05 Python
Python基于Socket实现简易多人聊天室的示例代码
2020/11/29 Python
详解如何解决H5开发使用wx.hideMenuItems无效果不生效
2021/01/20 HTML / CSS
美国第一香水网站:Perfume.com
2017/01/23 全球购物
食品行业求职人的自我评价
2014/01/19 职场文书
四年级下册教学反思
2014/02/01 职场文书
上课玩手机的检讨书
2014/10/01 职场文书
班主任先进事迹材料
2014/12/17 职场文书
贫困生助学金感谢信
2015/01/21 职场文书
2015年党员公开承诺书范文
2015/01/22 职场文书
打架检讨书范文
2015/01/27 职场文书
2015年消费者权益日活动总结
2015/02/09 职场文书
赤壁观后感(2)
2015/06/15 职场文书
校园广播稿范文
2015/08/19 职场文书
Win11 Build 22000.51版本文件资源管理器“命令栏”和上下文菜单有什么新变化?
2021/11/21 数码科技