Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
zbar解码二维码和条形码示例
Feb 07 Python
Python中endswith()函数的基本使用
Apr 07 Python
Python cx_freeze打包工具处理问题思路及解决办法
Feb 13 Python
Python在信息学竞赛中的运用及Python的基本用法(详解)
Aug 15 Python
python3监控CentOS磁盘空间脚本
Jun 21 Python
python3实现点餐系统
Jan 24 Python
python检测服务器端口代码实例
Aug 31 Python
python多继承(钻石继承)问题和解决方法简单示例
Oct 21 Python
解决Opencv+Python cv2.imshow闪退问题
Apr 24 Python
Python Flask框架实现简单加法工具过程解析
Jun 03 Python
如何快速一次性卸载所有python包(第三方库)呢
Oct 20 Python
matplotlib绘制多子图共享鼠标光标的方法示例
Jan 08 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
PHP 第二节 数据类型之数组
2012/04/28 PHP
php setcookie(name, value, expires, path, domain, secure) 参数详解
2013/06/28 PHP
如果文字过长,则将过长的部分变成省略号显示
2006/06/26 Javascript
javascript获取当前ip的代码
2009/05/10 Javascript
JavaScript 滚轮事件使用说明
2010/03/07 Javascript
jQuery实现强制cookie过期方法汇总
2015/05/22 Javascript
JQuery查找DOM节点的方法
2015/06/11 Javascript
通过隐藏iframe实现无刷新上传文件操作
2016/03/16 Javascript
极力推荐10个短小实用的JavaScript代码段
2016/08/03 Javascript
Sequelize中用group by进行分组聚合查询
2016/12/12 Javascript
jquery 仿锚点跳转到页面指定位置的实例
2017/02/14 Javascript
JavaScript严格模式下关于this的几种指向详解
2017/07/12 Javascript
vue 过滤器filter实例详解
2018/03/14 Javascript
微信小程序实现随机验证码功能
2018/12/20 Javascript
js 图片懒加载的实现
2020/10/21 Javascript
[47:52]完美世界DOTA2联赛PWL S2 PXG vs InkIce 第二场 11.26
2020/11/30 DOTA
python使用htmllib分析网页内容的方法
2015/05/08 Python
Python读大数据txt
2016/03/28 Python
python简单实现刷新智联简历
2016/03/30 Python
python分割列表(list)的方法示例
2017/05/07 Python
用python标准库difflib比较两份文件的异同详解
2018/11/16 Python
Python 数据库操作 SQLAlchemy的示例代码
2019/02/18 Python
Python-openCV读RGB通道图实例
2020/01/17 Python
详解Django ORM引发的数据库N+1性能问题
2020/10/12 Python
护士的岗位职责
2013/12/04 职场文书
图书室管理制度
2014/01/19 职场文书
和睦家庭事迹
2014/05/14 职场文书
我的未来不是梦演讲稿
2014/09/02 职场文书
县长“四风”对照检查材料思想汇报
2014/10/05 职场文书
出差报告格式模板
2014/11/06 职场文书
委托培训协议书
2014/11/17 职场文书
2014年体检中心工作总结
2014/12/23 职场文书
社区国庆节活动总结
2015/03/23 职场文书
酒店人事专员岗位职责
2015/04/07 职场文书
银行求职信怎么写
2019/06/20 职场文书
tensorflow学习笔记之tfrecord文件的生成与读取
2021/03/31 Python