python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
Python搜索引擎实现原理和方法
Nov 27 Python
python批量替换多文件字符串问题详解
Apr 22 Python
python判断输入日期为第几天的实例
Nov 13 Python
在SQLite-Python中实现返回、查询中文字段的方法
Jul 17 Python
Python 二叉树的层序建立与三种遍历实现详解
Jul 29 Python
python装饰器相当于函数的调用方式
Dec 27 Python
如何在python开发工具PyCharm中搭建QtPy环境(教程详解)
Feb 04 Python
python 弧度与角度互转实例
Apr 15 Python
Python3实现个位数字和十位数字对调, 其乘积不变
May 03 Python
pymongo insert_many 批量插入的实例
Dec 05 Python
如何使用python-opencv批量生成带噪点噪线的数字验证码
Dec 21 Python
python 对xml解析的示例
Feb 27 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
php session安全问题分析
2011/06/24 PHP
PHP 清空varnish 缓存的详解(包括指定站点下的)
2013/06/20 PHP
PHP实现原生态图片上传封装类方法
2016/11/08 PHP
editable.js 基于jquery的表格的编辑插件
2011/10/24 Javascript
网页打开自动最大化的js代码
2012/08/22 Javascript
实测jquery data()如何存值
2013/08/18 Javascript
改变隐藏的input中value值的方法
2014/03/19 Javascript
Javascript添加监听与删除监听用法详解
2014/12/19 Javascript
走进javascript——不起眼的基础,值和分号
2017/02/24 Javascript
Angular组件化管理实现方法分析
2017/03/17 Javascript
原生Aajax 和jQuery Ajax 写法个人总结
2017/03/24 jQuery
Jquery EasyUI $.Parser
2017/06/02 jQuery
Javascript实现基本运算器
2017/07/15 Javascript
NodeJS实现视频转码的示例代码
2017/11/18 NodeJs
CentOS7中源码编译安装NodeJS的完整步骤
2018/10/13 NodeJs
Nodejs处理异常操作示例
2018/12/25 NodeJs
jQuery+vue.js实现的多选下拉列表功能示例
2019/01/15 jQuery
深入理解javascript prototype的相关知识
2019/09/19 Javascript
js基础之事件捕获与冒泡原理
2019/10/09 Javascript
Node.js API详解之 net模块实例分析
2020/05/18 Javascript
NodeJS模块Buffer原理及使用方法解析
2020/11/11 NodeJs
vue中父子组件的参数传递和应用示例
2021/01/04 Vue.js
Python isinstance判断对象类型
2008/09/06 Python
python模拟登陆Tom邮箱示例分享
2014/01/13 Python
python正则表达式中的括号匹配问题
2014/12/14 Python
python连接mysql实例分享
2016/10/09 Python
python基于ID3思想的决策树
2018/01/03 Python
Python中一行和多行import模块问题
2018/04/01 Python
使用Python实现牛顿法求极值
2020/02/10 Python
德国综合购物网站:OTTO
2018/11/13 全球购物
教师演讲稿范文
2014/01/08 职场文书
品质口号大全
2014/06/17 职场文书
2015年工商所工作总结
2015/05/21 职场文书
教师理论学习心得体会
2016/01/21 职场文书
创业计划书之奶茶店开店方案范本!
2019/08/06 职场文书
详细聊聊vue中组件的props属性
2021/11/02 Vue.js