python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
Python MySQLdb Linux下安装笔记
May 09 Python
Python学习入门之区块链详解
Jul 25 Python
PyCharm鼠标右键不显示Run unittest的解决方法
Nov 30 Python
24式加速你的Python(小结)
Jun 13 Python
Python基础学习之时间转换函数用法详解
Jun 18 Python
python-django中的APPEND_SLASH实现方法
Jun 21 Python
对Python中画图时候的线类型详解
Jul 07 Python
Django 过滤器汇总及自定义过滤器使用详解
Jul 19 Python
如何基于Python + requests实现发送HTTP请求
Jan 13 Python
python实现用类读取文件数据并计算矩形面积
Jan 18 Python
python Matplotlib数据可视化(1):简单入门
Sep 30 Python
七个Python必备的GUI库
Apr 27 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
PHP HTML代码串 截取实现代码
2009/06/29 PHP
yii2.0之GridView自定义按钮和链接用法
2014/12/15 PHP
ioncube_loader_win_5.2.dll的错误解决方法
2015/01/04 PHP
PHP模板引擎smarty详细介绍
2015/05/26 PHP
PHP生成和获取XML格式数据的方法
2016/03/04 PHP
Web 前端设计模式--Dom重构 提高显示性能
2010/10/22 Javascript
javascript是怎么继承的介绍
2012/01/05 Javascript
学习JavaScript设计模式(策略模式)
2015/11/26 Javascript
探究JavaScript函数式编程的乐趣
2015/12/14 Javascript
Node.js本地文件操作之文件拷贝与目录遍历的方法
2016/02/16 Javascript
第四篇Bootstrap网格系统偏移列和嵌套列
2016/06/21 Javascript
bootstrap table 数据表格行内修改的实现代码
2017/02/13 Javascript
vue.js中v-on:textInput无法执行事件问题的解决过程
2017/07/12 Javascript
详解webpack3如何正确引用并使用jQuery库
2017/08/26 jQuery
vue.js简单配置axios的方法详解
2017/12/13 Javascript
node.js实现带进度条的多文件上传
2020/03/27 Javascript
解决vue 给window添加和移除resize事件遇到的坑
2020/07/21 Javascript
原生JS生成指定位数的验证码
2020/10/28 Javascript
uniapp微信小程序:key失效的解决方法
2021/01/20 Javascript
[03:42]2018完美盛典-《加冕》
2018/12/16 DOTA
python中mechanize库的简单使用示例
2014/01/10 Python
Python基于numpy灵活定义神经网络结构的方法
2017/08/19 Python
用python脚本24小时刷浏览器的访问量方法
2018/12/07 Python
Python  Django 母版和继承解析
2019/08/09 Python
Python异常模块traceback用法实例分析
2019/10/22 Python
Python爬虫基于lxml解决数据编码乱码问题
2020/07/31 Python
css3实现3D色子翻转特效
2014/12/23 HTML / CSS
澳大利亚设计师服装在线:MISHA
2019/10/07 全球购物
中学教师教育感言
2014/02/21 职场文书
农民工工资承诺书范文
2014/03/31 职场文书
幼儿教师师德承诺书
2014/05/23 职场文书
汽车广告策划方案
2014/05/31 职场文书
优秀团员事迹材料1500字
2014/08/31 职场文书
公司离职证明标准样本
2014/10/05 职场文书
跳高加油稿
2015/07/21 职场文书
PostgreSQL13基于流复制搭建后备服务器的方法
2022/01/18 PostgreSQL