Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
使用Python的Flask框架构建大型Web应用程序的结构示例
Jun 04 Python
Python实现自动添加脚本头信息的示例代码
Sep 02 Python
Python基于OpenCV实现视频的人脸检测
Jan 23 Python
python Matplotlib底图中鼠标滑过显示隐藏内容的实例代码
Jul 31 Python
Python 矩阵转置的几种方法小结
Dec 02 Python
pytorch 修改预训练model实例
Jan 18 Python
浅谈Tensorflow 动态双向RNN的输出问题
Jan 20 Python
wxPython修改文本框颜色过程解析
Feb 14 Python
python3 实现口罩抽签的功能
Mar 11 Python
解决Python中报错TypeError: must be str, not bytes问题
Apr 07 Python
QML实现钟表效果
Jun 02 Python
Python之matplotlib绘制折线图
Apr 13 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
PHP 模拟$_PUT实现代码
2010/03/15 PHP
用js实现多域名不同文件的调用方法
2007/01/12 Javascript
使用ExtJS技术实现的拖动树结点
2010/08/05 Javascript
用原生JavaScript实现jQuery的$.getJSON的解决方法
2013/05/03 Javascript
JavaScript类型系统之正则表达式
2016/01/05 Javascript
jQuery Easyui 验证两次密码输入是否相等
2016/05/13 Javascript
zepto与jquery的区别及zepto的不同使用8条小结
2016/07/28 Javascript
jQuery实现倒计时重新发送短信验证码功能示例
2017/01/12 Javascript
一个简易的js图片轮播效果
2017/07/22 Javascript
新手vue构建单页面应用实例代码
2017/09/18 Javascript
angularjs实现过滤并替换关键字小功能
2017/09/19 Javascript
原生JavaScript实现todolist功能
2018/03/02 Javascript
react 应用多入口配置及实践总结
2018/10/17 Javascript
jquery实现的放大镜效果示例
2020/02/24 jQuery
Python记录详细调用堆栈日志的方法
2015/05/05 Python
Python编写登陆接口的方法
2017/07/10 Python
python sys,os,time模块的使用(包括时间格式的各种转换)
2018/04/27 Python
基于DATAFRAME中元素的读取与修改方法
2018/06/08 Python
pycharm的console输入实现换行的方法
2019/01/16 Python
简单了解python反射机制的一些知识
2019/07/13 Python
Python实现我的世界小游戏源代码
2021/03/02 Python
html5中svg canvas和图片之间相互转化思路代码
2014/01/24 HTML / CSS
EMU Australia澳大利亚官网:澳大利亚本土雪地靴品牌
2019/07/24 全球购物
T3官网:头发造型工具
2019/12/26 全球购物
捷克购买家具网站:JENA nábytek
2020/03/19 全球购物
.net C#面试题
2012/08/28 面试题
师德师风主题教育活动总结
2015/05/07 职场文书
毕业论文致谢信
2015/05/14 职场文书
2016年校长新年寄语
2015/08/17 职场文书
《没有任何借口》读后感:完美的执行能力
2020/01/07 职场文书
如何利用JavaScript实现二叉搜索树
2021/04/02 Javascript
k8s部署redis cluster集群的实现
2021/06/24 Redis
Win11任务栏太宽了怎么办?一招解决Win11任务栏太宽问题
2021/11/21 数码科技
JavaCV实现照片马赛克效果
2022/01/22 Java/Android
索尼ICF-5900W收音机测评
2022/04/24 无线电
MySQL 原理优化之Group By的优化技巧
2022/08/14 MySQL