Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
多线程爬虫批量下载pcgame图片url 保存为xml的实现代码
Jan 17 Python
Python中操作MySQL入门实例
Feb 08 Python
全面了解Python的getattr(),setattr(),delattr(),hasattr()
Jun 14 Python
Eclipse和PyDev搭建完美Python开发环境教程(Windows篇)
Nov 16 Python
Python自动生产表情包
Mar 17 Python
python计算列表内各元素的个数实例
Jun 29 Python
在python中画正态分布图像的实例
Jul 08 Python
与Django结合利用模型对上传图片预测的实例详解
Aug 07 Python
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例
Sep 15 Python
基于python计算滚动方差(标准差)talib和pd.rolling函数差异详解
Jun 08 Python
Python Tkinter图形工具使用方法及实例解析
Jun 15 Python
python实例化对象的具体方法
Jun 17 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
解析Linux下Varnish缓存的配置优化
2013/06/20 PHP
对PHP PDO的一些认识小结
2015/01/23 PHP
PHP访问Google Search API的方法
2015/03/05 PHP
PHP读取配置文件类实例(可读取ini,yaml,xml等)
2015/07/28 PHP
thinkPHP5框架auth权限控制类与用法示例
2018/06/12 PHP
PhpStorm2020 + phpstudyV8 +XDebug的教程详解
2020/09/17 PHP
清华大学出版的事半功倍系列 javascript全部源代码
2007/05/04 Javascript
jquery获取元素索引值index()示例
2014/02/13 Javascript
动态读取JSON解析键值对的方法
2014/06/03 Javascript
浅析JavaScript事件和方法
2015/02/28 Javascript
js实现键盘Enter键提交表单的方法
2015/05/27 Javascript
jQuery插件制作之全局函数用法实例
2015/06/01 Javascript
RequireJS入门一之实现第一个例子
2015/09/30 Javascript
如何用JavaScript实现动态修改CSS样式表
2016/05/20 Javascript
js多个物体运动功能实例分析
2016/12/20 Javascript
AjaxUpLoad.js实现文件上传
2018/03/05 Javascript
jQuery+ajax读取json数据并按照价格排序示例
2018/03/28 jQuery
vuex操作state对象的实例代码
2018/04/25 Javascript
vue组件挂载到全局方法的示例代码
2018/08/02 Javascript
Vue2实时监听表单变化的示例讲解
2018/08/30 Javascript
Vue.js 中的 v-cloak 指令及使用详解
2018/11/19 Javascript
实例详解vue中的$root和$parent
2019/04/29 Javascript
vue使用swiper实现中间大两边小的轮播图效果
2019/11/24 Javascript
ES6 十大特性简介
2020/12/09 Javascript
Python实现截屏的函数
2015/07/25 Python
Python 内置函数complex详解
2016/10/23 Python
HTML5地理定位实例
2014/10/15 HTML / CSS
Calphalon美国官网:美国顶级锅具品牌
2020/02/05 全球购物
描述JSP和Servlet的区别、共同点、各自应用的范围
2012/10/02 面试题
优秀村官事迹材料
2014/01/10 职场文书
员工2014年度工作总结
2014/12/09 职场文书
幼儿园家长工作总结2015
2015/04/25 职场文书
教师节表彰会主持词
2015/07/06 职场文书
同学会演讲稿
2019/04/02 职场文书
如何起草一份正确的合伙创业协议书?
2019/07/04 职场文书
MySQL索引失效场景及解决方案
2022/07/23 MySQL