python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
跟老齐学Python之有点简约的元组
Sep 24 Python
Python的Flask框架中使用Flask-SQLAlchemy管理数据库的教程
Jun 14 Python
Python决策树之基于信息增益的特征选择示例
Jun 25 Python
Django框架封装外部函数示例
May 28 Python
PyQt5 QTable插入图片并动态更新的实例
Jun 18 Python
Django urls.py重构及参数传递详解
Jul 23 Python
django框架ModelForm组件用法详解
Dec 11 Python
配置python的编程环境之Anaconda + VSCode的教程
Mar 29 Python
django修改models重建数据库的操作
Mar 31 Python
Python 使用 PyQt5 开发的关机小工具分享
Jul 16 Python
python 实现超级玛丽游戏
Nov 25 Python
python 利用matplotlib在3D空间绘制二次抛物面的案例
Feb 06 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
了解咖啡雨林联盟认证 什么是雨林认证 雨林认证是什么意思
2021/03/05 新手入门
CodeIgniter集成smarty的方法详解
2016/05/26 PHP
JavaScript中this关键字使用方法详解
2007/03/08 Javascript
精通Javascript系列之Javascript基础篇
2011/06/07 Javascript
javascript 使td内容不换行不撑开
2012/11/29 Javascript
javascript移动开发中touch触摸事件详解
2016/03/18 Javascript
微信小程序 购物车简单实例
2016/10/24 Javascript
AngularJS全局scope与Isolate scope通信用法示例
2016/11/22 Javascript
jQuery插件zTree实现的多选树效果示例
2017/03/08 Javascript
jquery仿微信聊天界面
2017/05/06 jQuery
Vue.js移动端左滑删除组件的实现代码
2017/09/08 Javascript
ActiveX控件的使用-js实现打印超市小票功能代码详解
2017/11/22 Javascript
探索JavaScript中私有成员的相关知识
2019/06/13 Javascript
让 babel webpack vue 配置文件支持智能提示的方法
2019/06/22 Javascript
seajs和requirejs模块化简单案例分析
2019/08/26 Javascript
微信小程序实现轨迹回放的示例代码
2019/12/13 Javascript
Node.js学习之内置模块fs用法示例
2020/01/22 Javascript
js this 绑定机制深入详解
2020/04/30 Javascript
[03:07]【DOTA2亚洲邀请赛】我们,梦开始的地方
2017/03/07 DOTA
python基础教程之数字处理(math)模块详解
2014/03/25 Python
用python制作游戏外挂
2018/01/04 Python
对Keras中predict()方法和predict_classes()方法的区别说明
2020/06/09 Python
移动端html5判断是否滚动到底部并且下拉加载
2019/11/19 HTML / CSS
英国最大的化装舞会服装网站:Fancydress.com
2017/08/15 全球购物
高品质和独特的产品世界:Creations and Collections
2018/01/07 全球购物
土木工程应届生自荐信
2013/09/24 职场文书
关于毕业的广播稿
2014/01/10 职场文书
学习张丽丽心得体会
2014/09/03 职场文书
三提三创主题教育活动查摆整改措施
2014/10/25 职场文书
见习报告格式要求
2014/11/04 职场文书
员工辞职信怎么写
2015/02/27 职场文书
个人求职信格式范文
2015/03/20 职场文书
毕业设计致谢词
2015/05/14 职场文书
2016年小学教师政治学习心得体会
2016/01/23 职场文书
2016民族团结先进个人事迹材料
2016/02/26 职场文书
react使用antd的上传组件实现文件表单一起提交功能(完整代码)
2021/06/29 Javascript