python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
Python struct模块解析
Jun 12 Python
跟老齐学Python之大话题小函数(2)
Oct 10 Python
Python对列表中的各项进行关联详解
Aug 15 Python
python用户管理系统的实例讲解
Dec 23 Python
python操作列表的函数使用代码详解
Dec 28 Python
Python异常处理操作实例详解
May 10 Python
python redis 删除key脚本的实例
Feb 19 Python
Python实现字典按key或者value进行排序操作示例【sorted】
May 03 Python
Scrapy-Redis结合POST请求获取数据的方法示例
May 07 Python
PyQt5显示GIF图片的方法
Jun 17 Python
python要安装在哪个盘
Jun 15 Python
OpenCV图片漫画效果的实现示例
Aug 18 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
PHP自定义大小验证码的方法详解
2013/06/07 PHP
关于查看MSSQL 数据库 用户每个表 占用的空间大小
2013/06/21 PHP
Laravel 5.0 发布 新版本特性详解
2015/02/10 PHP
PHP单例模式与工厂模式详解
2017/08/29 PHP
PHP判断json格式是否正确的实现代码
2017/09/20 PHP
setAttribute 与 class冲突解决
2008/02/17 Javascript
20款效果非常棒的 jQuery 插件小结分享
2011/11/18 Javascript
Jquery实现简单的动画效果代码
2012/03/18 Javascript
JavaScript自动设置IFrame高度的小例子
2013/06/08 Javascript
js截取小数点后几位的写法
2013/11/14 Javascript
JavaScript中的数组特性介绍
2014/12/30 Javascript
js基础知识(公有方法、私有方法、特权方法)
2015/11/06 Javascript
javascript表单处理具体实现代码(表单、链接、按钮)
2016/05/07 Javascript
JS实现n秒后自动跳转的两种方法
2020/11/30 Javascript
js删除数组元素、清空数组的简单方法(必看)
2016/07/27 Javascript
jQuery插件zTree实现清空选中第一个节点所有子节点的方法
2017/03/08 Javascript
uploader秒传图片到服务器完整代码
2017/04/22 Javascript
微信小程序 navbar实例详解
2017/05/11 Javascript
VUE使用vuex解决模块间传值问题的方法
2017/06/01 Javascript
JS实现微信摇一摇原理解析
2017/07/22 Javascript
深入剖析Express cookie-parser中间件实现示例
2018/02/01 Javascript
AngularJs的UI组件ui-Bootstrap之Tooltip和Popover
2018/07/13 Javascript
Python多线程编程(二):启动线程的两种方法
2015/04/05 Python
python pillow模块使用方法详解
2019/08/30 Python
使用Django搭建一个基金模拟交易系统教程
2019/11/18 Python
Python run()函数和start()函数的比较和差别介绍
2020/05/03 Python
HTML5页面音视频在微信和app下自动播放的实现方法
2016/10/20 HTML / CSS
Made in Design英国:设计家具、照明、家庭装饰和花园家具
2019/09/24 全球购物
Muziker英国:中欧最大的音乐家商店
2020/02/05 全球购物
精伦电子Java笔试题
2013/01/16 面试题
UNIX文件系统分类
2014/11/11 面试题
法人委托书
2014/07/31 职场文书
2014年乡镇民政工作总结
2014/12/02 职场文书
师德标兵事迹材料
2014/12/19 职场文书
我们的节日重阳节活动总结
2015/03/24 职场文书
教师读书笔记
2015/06/29 职场文书