Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python监控网卡流量并使用graphite绘图的示例
Apr 27 Python
python3生成随机数实例
Oct 20 Python
Python实现基本线性数据结构
Aug 22 Python
Python爬虫的两套解析方法和四种爬虫实现过程
Jul 20 Python
python 并发编程 多路复用IO模型详解
Aug 20 Python
python的scipy实现插值的示例代码
Nov 12 Python
python做接口测试的必要性
Nov 20 Python
关于Pytorch的MLP模块实现方式
Jan 07 Python
pytorch 利用lstm做mnist手写数字识别分类的实例
Jan 10 Python
Anaconda+VSCode配置tensorflow开发环境的教程详解
Mar 30 Python
Keras自动下载的数据集/模型存放位置介绍
Jun 19 Python
python flask框架快速入门
May 14 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
使用Apache的rewrite技术
2006/06/22 PHP
php常用经典函数集锦【数组、字符串、栈、队列、排序等】
2019/08/23 PHP
jQuery+PHP实现图片上传并提交功能
2020/07/27 PHP
js文本框输入内容智能提示效果
2015/12/02 Javascript
JavaScript时间操作之年月日星期级联操作
2016/01/15 Javascript
artDialog+plupload实现多文件上传
2016/07/19 Javascript
浅谈JavaScript 中有关时间对象的方法
2016/08/15 Javascript
jQuery插件HighCharts绘制2D饼图效果示例【附demo源码下载】
2017/03/21 jQuery
JS判断两个对象内容是否相等的方法示例
2017/04/10 Javascript
ES6 javascript的异步操作实例详解
2017/10/30 Javascript
详解Nodejs内存治理
2018/05/13 NodeJs
微信小程序实现跑马灯效果
2020/10/21 Javascript
详解Typescript 内置的模块导入兼容方式
2020/05/31 Javascript
[02:43]2018DOTA2亚洲邀请赛主赛事首日TOP5
2018/04/04 DOTA
paramiko模块安装和使用(远程登录服务器)
2014/01/27 Python
Python 不同对象比较大小示例探讨
2014/08/21 Python
python静态方法实例
2015/01/14 Python
Django框架中处理URLconf中特定的URL的方法
2015/07/20 Python
关于pip的安装,更新,卸载模块以及使用方法(详解)
2017/05/19 Python
Python实现的读写json文件功能示例
2018/06/05 Python
使用Python的Dataframe取两列时间值相差一年的所有行方法
2018/07/10 Python
python使用mitmproxy抓取浏览器请求的方法
2019/07/02 Python
python 实现方阵的对角线遍历示例
2019/11/29 Python
Python基本类型的连接组合和互相转换方式(13种)
2019/12/16 Python
Numpy 理解ndarray对象的示例代码
2020/04/03 Python
css3边框_动力节点Java学院整理
2017/07/11 HTML / CSS
h5页面唤起app如果没安装就跳转下载(iOS和Android)
2020/06/03 HTML / CSS
美国诺德斯特龙百货官网:Nordstrom
2016/08/23 全球购物
捷克领先的户外服装及配件市场零售商:ALPINE PRO
2018/01/09 全球购物
美国婴童服装市场上的领先品牌:Carter’s
2018/02/08 全球购物
AJAX的全称是什么
2012/11/06 面试题
道德模范先进事迹
2014/02/14 职场文书
环保志愿者活动总结
2014/06/27 职场文书
迁徙的鸟观后感
2015/06/09 职场文书
浅谈react useEffect闭包的坑
2021/06/08 Javascript
在MySQL中你成功的避开了所有索引
2022/04/20 MySQL