python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
linux下python抓屏实现方法
May 22 Python
Django ORM框架的定时任务如何使用详解
Oct 19 Python
利用 python 对目录下的文件进行过滤删除
Dec 27 Python
pandas.DataFrame选取/排除特定行的方法
Jul 03 Python
Django添加favicon.ico图标的示例代码
Aug 07 Python
Python 判断图像是否读取成功的方法
Jan 26 Python
PowerBI和Python关于数据分析的对比
Jul 11 Python
解决Python3用PIL的ImageFont输出中文乱码的问题
Aug 22 Python
wxPython实现画图板
Aug 27 Python
Django import export实现数据库导入导出方式
Apr 03 Python
pycharm远程连接vagrant虚拟机中mariadb数据库
Jun 05 Python
python和node.js生成当前时间戳的示例
Sep 29 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
实用函数2
2007/11/08 PHP
两个开源的Php输出Excel文件类
2010/02/08 PHP
IP138 IP地址查询小偷实现代码
2010/02/15 PHP
php中判断数组相等的方法以及数组运算符介绍
2015/03/30 PHP
PHP信号量基本用法实例详解
2016/02/12 PHP
php中mkdir()函数的权限问题分析
2016/09/24 PHP
PHP命令空间namespace及use的用法小结
2017/11/27 PHP
PHP扩展mcrypt实现的AES加密功能示例
2019/01/29 PHP
浅谈PHP中的Trait使用方法
2019/03/22 PHP
JavaScript 撑出页面文字换行
2009/06/15 Javascript
从数据结构的角度分析 for each in 比 for in 快的多
2013/07/07 Javascript
IE6已终止操作问题的2种情况及解决
2014/04/23 Javascript
js识别不同浏览器基于userAgent做判断
2014/07/29 Javascript
JQuery右键菜单插件ContextMenu使用指南
2014/12/19 Javascript
JavaScript中子对象访问父对象的方式详解
2016/09/01 Javascript
mac中利用NVM管理不同node版本的方法详解
2017/11/08 Javascript
详解Vue+Element的动态表单,动态表格(后端发送配置,前端动态生成)
2019/04/20 Javascript
详解key在Vue列表渲染时究竟起到了什么作用
2019/04/20 Javascript
如何利用vue+vue-router+elementUI实现简易通讯录
2019/05/13 Javascript
springboot+vue实现文件上传下载
2020/11/17 Vue.js
Python3 tkinter 实现文件读取及保存功能
2019/09/12 Python
numpy创建单位矩阵和对角矩阵的实例
2019/11/29 Python
TensorFlow2.0:张量的合并与分割实例
2020/01/19 Python
Python3自动生成MySQL数据字典的markdown文本的实现
2020/05/07 Python
Manjaro、pip、conda更换国内源的方法
2020/11/17 Python
python time.strptime格式化实例详解
2021/02/03 Python
实例讲解使用CSS实现多边框和透明边框的方法
2015/09/08 HTML / CSS
HTML5 Canvas API中drawImage()方法的使用实例
2016/03/25 HTML / CSS
世界最大的海报和艺术印刷商店:AllPosters.com
2017/02/01 全球购物
美国室内盆栽植物购买网站:Plants.com
2020/04/24 全球购物
自我鉴定三原则
2014/01/13 职场文书
求职信名称怎么写
2014/05/26 职场文书
师范类求职信
2014/06/21 职场文书
2014保险公司内勤工作总结
2014/12/16 职场文书
mysql优化
2021/04/06 MySQL
解决xampp安装后Apache无法启动
2022/03/21 Servers