Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
Python求导数的方法
May 09 Python
简单解析Django框架中的表单验证
Jul 17 Python
python append、extend与insert的区别
Oct 13 Python
解决python os.mkdir创建目录失败的问题
Oct 16 Python
python3 json数据格式的转换(dumps/loads的使用、dict to str/str to dict、json字符串/字典的相互转换)
Apr 01 Python
python通过TimedRotatingFileHandler按时间切割日志
Jul 17 Python
Python CVXOPT模块安装及使用解析
Aug 01 Python
python中用logging实现日志滚动和过期日志删除功能
Aug 20 Python
python之yield和Generator深入解析
Sep 18 Python
Python 元组操作总结
Sep 18 Python
python实现从尾到头打印单链表操作示例
Feb 22 Python
Python 实现定积分与二重定积分的操作
May 26 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
thinkPHP3.2简单实现文件上传的方法
2016/05/16 PHP
JavaScript入门学习书籍推荐
2008/06/12 Javascript
Firefox下提示illegal character并出现乱码的原因
2010/03/25 Javascript
js使用函数绑定技术改变事件处理程序的作用域
2011/12/26 Javascript
『jQuery』.html(),.text()和.val()的概述及使用
2013/04/22 Javascript
javascript检查表单数据是否改变的方法
2013/07/30 Javascript
javascript面向对象之共享成员属性与方法及prototype关键字用法
2015/01/13 Javascript
javascript实现捕捉键盘上按下的键
2015/05/05 Javascript
jquery实现动静态条形统计图
2015/08/17 Javascript
如何防止JavaScript自动插入分号
2015/11/05 Javascript
jquery制作属于自己的select自定义样式
2015/11/23 Javascript
你真的了解BOM中的history对象吗
2017/02/13 Javascript
js仿新浪微博消息发布功能
2017/02/17 Javascript
ES6知识点整理之函数对象参数默认值及其解构应用示例
2019/04/17 Javascript
vue.js+elementUI实现点击左右箭头切换头像功能(类似轮播图效果)
2019/09/05 Javascript
原生JavaScript写出Tabs标签页的实例代码
2020/07/20 Javascript
[56:45]DOTA2上海特级锦标赛D组小组赛#1 EG VS COL第一局
2016/02/28 DOTA
python备份文件以及mysql数据库的脚本代码
2013/06/10 Python
python 编程之twisted详解及简单实例
2017/01/28 Python
Python中创建字典的几种方法总结(推荐)
2017/04/27 Python
Linux CentOS Python开发环境搭建教程
2018/11/28 Python
python实现读取excel文件中所有sheet操作示例
2019/08/09 Python
在PyTorch中Tensor的查找和筛选例子
2019/08/18 Python
解决Tensorboard 不显示计算图graph的问题
2020/02/15 Python
PyCharm最新激活码PyCharm2020.2.3有效
2020/11/18 Python
谈谈对css属性box-sizing的了解
2017/01/04 HTML / CSS
使用HTML5技术开发一个属于自己的超酷颜色选择器
2013/09/22 HTML / CSS
美国最大的团购网站:Groupon
2016/07/23 全球购物
米兰必去买手店排行榜首位:Antonioli
2016/09/11 全球购物
讲解员培训方案
2014/05/04 职场文书
学习优秀党员杨宗兴先进事迹材料思想汇报
2014/09/14 职场文书
2015年小学美术工作总结
2015/05/25 职场文书
“5.12”护士节主持词
2015/07/04 职场文书
运动员入场词
2015/07/18 职场文书
毕业欢送会致辞
2015/07/29 职场文书
优秀新员工事迹材料
2019/05/13 职场文书