Python3.4编程实现简单抓取爬虫功能示例


Posted in Python onSeptember 14, 2017

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
关于Python中Inf与Nan的判断问题详解
Feb 08 Python
Python统计单词出现的次数
Apr 04 Python
python 按照固定长度分割字符串的方法小结
Apr 30 Python
python实现简单tftp(基于udp协议)
Jul 30 Python
django+mysql的使用示例
Nov 23 Python
Python Numpy库安装与基本操作示例
Jan 08 Python
kali中python版本的切换方法
Jul 11 Python
PIL包中Image模块的convert()函数的具体使用
Feb 26 Python
Python super()函数使用及多重继承
May 06 Python
Django设置Postgresql的操作
May 14 Python
python json.dumps() json.dump()的区别详解
Jul 14 Python
python开发一个解析protobuf文件的简单编译器
Nov 17 Python
python实现八大排序算法(1)
Sep 14 #Python
python实现简单聊天应用 python群聊和点对点均实现
Sep 14 #Python
Python实现购物系统(示例讲解)
Sep 13 #Python
python模块之sys模块和序列化模块(实例讲解)
Sep 13 #Python
python模块之time模块(实例讲解)
Sep 13 #Python
python difflib模块示例讲解
Sep 13 #Python
Python网络编程 Python套接字编程
Sep 13 #Python
You might like
社区(php&&mysql)六
2006/10/09 PHP
php截取utf-8中文字符串乱码的解决方法
2010/03/29 PHP
PHP中模拟处理HTTP PUT请求的例子
2014/07/22 PHP
浅谈PHP中类和对象的相关函数
2017/04/26 PHP
浅谈Laravel队列实现原理解决问题记录
2017/08/19 PHP
flash javascript之间的通讯方法小结
2008/12/20 Javascript
javascript控制swfObject应用介绍
2012/11/29 Javascript
瀑布流布局并自动加载实现代码
2013/03/12 Javascript
使用PHP+JQuery+Ajax分页的实现
2013/04/23 Javascript
Js和JQuery获取鼠标指针坐标的实现代码分享
2015/05/25 Javascript
javascript获取文档坐标和视口坐标
2015/05/26 Javascript
jQuery实现鼠标经过弹出提示信息的地图热点效果
2015/08/07 Javascript
JQuery.validate在ie8下不支持的快速解决方法
2016/05/18 Javascript
javascript中对Date类型的常用操作小结
2016/05/19 Javascript
微信小程序 教程之wxapp视图容器 swiper
2016/10/19 Javascript
jQuery插件版本冲突的处理方法分析
2017/01/16 Javascript
前端编码规范(3)JavaScript 开发规范
2017/01/21 Javascript
JavaScript实现省市县三级级联特效
2017/05/16 Javascript
EL表达式截取字符串的函数说明
2017/09/22 Javascript
微信小程序tabbar底部导航
2018/11/05 Javascript
javascript实现切割轮播效果
2019/11/28 Javascript
vue实现购物车选择功能
2020/01/10 Javascript
微信小程序swiper组件实现抖音翻页切换视频功能的实例代码
2020/06/24 Javascript
vue 监听窗口变化对页面部分元素重新渲染操作
2020/07/28 Javascript
[44:39]2014 DOTA2国际邀请赛中国区预选赛 NE VS CNB
2014/05/21 DOTA
python设置检查点简单实现代码
2014/07/01 Python
修复 Django migration 时遇到的问题解决
2018/06/14 Python
Python列表删除元素del、pop()和remove()的区别小结
2019/09/11 Python
Python collections.defaultdict模块用法详解
2020/06/18 Python
Django-Scrapy生成后端json接口的方法示例
2020/10/06 Python
预订奥兰多和佛罗里达州公园门票:FloridaTix
2018/01/03 全球购物
大学生自我鉴定
2013/12/16 职场文书
小学教师听课制度
2014/02/01 职场文书
一年级班主任感言
2014/03/08 职场文书
小学语文新课改心得体会
2016/01/22 职场文书
Redis高并发缓存架构性能优化
2022/05/15 Redis