Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python网页解析利器BeautifulSoup安装使用介绍
Mar 17 Python
python生成器generator用法实例分析
Jun 04 Python
Pycharm代码无法复制,无法选中删除,无法编辑的解决方法
Oct 22 Python
解决Django删除migrations文件夹中的文件后出现的异常问题
Aug 31 Python
python使用opencv实现马赛克效果示例
Sep 28 Python
python GUI库图形界面开发之PyQt5控件数据拖曳Drag与Drop详细使用方法与实例
Feb 27 Python
python手机号前7位归属地爬虫代码实例
Mar 31 Python
Python BeautifulReport可视化报告代码实例
Apr 13 Python
使用python无账号无限制获取企查查信息的实例代码
Apr 17 Python
浅析python字符串前加r、f、u、l 的区别
Jan 24 Python
pytorch 带batch的tensor类型图像显示操作
May 20 Python
一文搞懂Python Sklearn库使用
Aug 23 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
浅谈使用 PHP 进行手机 APP 开发(API 接口开发)
2014/08/11 PHP
PHP+jQuery 注册模块的改进(三):更新到Smarty3.1
2014/10/14 PHP
使用PHP生成PDF方法详解
2015/01/23 PHP
php中使用base HTTP验证的方法
2015/04/20 PHP
源码分析 Laravel 重复执行同一个队列任务的原因
2017/12/25 PHP
使用滤镜设置透明导致 IE 6/7/8/9 解析异常的解决方法
2011/04/07 Javascript
js对象内部访问this修饰的成员函数示例
2014/04/27 Javascript
BOOTSTRAP时间控件显示在模态框下面的bug修复
2015/02/05 Javascript
js实现带缓冲效果的仿QQ面板折叠菜单代码
2015/09/06 Javascript
AngularJS基础 ng-copy 指令实例代码
2016/08/01 Javascript
小程序如何构建骨架屏
2019/05/29 Javascript
JS合并两个数组的3种方法详解
2019/10/24 Javascript
jQuery实现tab栏切换效果
2020/12/22 jQuery
Python使用urllib模块的urlopen超时问题解决方法
2014/11/08 Python
python版微信跳一跳游戏辅助
2018/01/11 Python
Python的CGIHTTPServer交互实现详解
2018/02/08 Python
浅谈Python Opencv中gamma变换的使用详解
2018/04/02 Python
django反向解析和正向解析的方式
2018/06/05 Python
Python GUI布局尺寸适配方法
2018/10/11 Python
python获取Pandas列名的几种方法
2019/08/07 Python
Python小程序之在图片上加入数字的代码
2019/11/26 Python
把富文本的回车转为br标签
2019/08/09 HTML / CSS
详解淘宝H5 sign加密算法
2020/08/25 HTML / CSS
JAVA代码查错题
2014/10/10 面试题
Linux Interview Questions For software testers
2012/06/02 面试题
毕业研究生的自我鉴定
2013/11/30 职场文书
给朋友的道歉信
2014/01/09 职场文书
小学中秋节活动方案
2014/02/06 职场文书
求职信模板标准格式范文
2014/02/23 职场文书
高三励志标语
2014/06/05 职场文书
2014老师三严三实对照检查材料思想汇报
2014/09/18 职场文书
2015年度团总支工作总结
2015/04/23 职场文书
怎样写家长意见
2015/06/04 职场文书
工作表现证明
2015/06/15 职场文书
Python使用random模块实现掷骰子游戏的示例代码
2021/04/29 Python
Redis主从复制操作和配置详情
2022/09/23 Redis