Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
Python HTMLParser模块解析html获取url实例
Apr 08 Python
json跨域调用python的方法详解
Jan 11 Python
Python实现图片转字符画的示例
Aug 22 Python
Python内置模块ConfigParser实现配置读写功能的方法
Feb 12 Python
Python实现的FTP通信客户端与服务器端功能示例
Mar 28 Python
python 设置输出图像的像素大小方法
Jul 04 Python
Python使用Tkinter实现转盘抽奖器的步骤详解
Jan 06 Python
tensorflow将图片保存为tfrecord和tfrecord的读取方式
Feb 17 Python
Python 连接 MySQL 的几种方法
Sep 09 Python
python中绕过反爬虫的方法总结
Nov 25 Python
python中xlrd模块的使用详解
Feb 01 Python
解决Pytorch修改预训练模型时遇到key不匹配的情况
Jun 05 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
PHP+javascript液晶时钟
2006/10/09 PHP
PHP提示Cannot modify header information - headers already sent by解决方法
2014/09/22 PHP
php实现html标签闭合检测与修复方法
2015/07/09 PHP
ThinkPHP框架实现导出excel数据的方法示例【基于PHPExcel】
2018/05/12 PHP
jquery中通过过滤器获取表单元素的实现代码
2011/07/05 Javascript
js实现网站首页图片滚动显示
2013/02/04 Javascript
在JavaScript里嵌入大量字符串常量的实现方法
2013/07/07 Javascript
Javascript中判断变量是数组还是对象(array还是object)
2013/08/14 Javascript
JavaScript实现横向滑出的多级菜单效果
2015/10/09 Javascript
Jquery 1.9.1源码分析系列(十二)之筛选操作
2015/12/02 Javascript
js实现简单的获取验证码按钮效果
2017/03/03 Javascript
用node-webkit把web应用打包成桌面应用(windows环境)
2018/02/01 Javascript
浅谈webpack打包之后的文件过大的解决方法
2018/03/07 Javascript
js提取中文拼音首字母的封装工具类
2018/03/12 Javascript
JS数组求和的常用方法实例小结
2019/01/07 Javascript
关于JS模块化的知识点分享
2019/10/16 Javascript
JS如何寻找数组中心索引过程解析
2020/06/01 Javascript
js+cavans实现图片滑块验证
2020/09/29 Javascript
让python 3支持mysqldb的解决方法
2017/02/14 Python
详解 Python中LEGB和闭包及装饰器
2017/08/03 Python
Python编程之微信推送模板消息功能示例
2017/08/21 Python
使用python验证代理ip是否可用的实现方法
2018/07/25 Python
python 将视频 通过视频帧转换成时间实例
2020/04/23 Python
python 模块导入问题汇总
2021/02/01 Python
CSS3实现类似翻书效果的过渡动画的示例代码
2019/09/06 HTML / CSS
伦敦所有西区剧院演出官方票务代理:Theatre Tickets Direct
2017/05/26 全球购物
美国羊皮公司:Overland
2018/01/15 全球购物
李维斯牛仔裤英国官方网站:Levi’s英国
2019/10/10 全球购物
大一新生军训时的自我评价分享
2013/12/05 职场文书
大学军训感言1000字
2014/02/25 职场文书
幼儿教师师德承诺书
2014/05/23 职场文书
竞选班干部演讲稿100字
2014/08/20 职场文书
2015年电工工作总结
2015/04/10 职场文书
MySQL安装后默认自带数据库的作用详解
2021/04/27 MySQL
使用react-virtualized实现图片动态高度长列表的问题
2021/05/28 Javascript
MySQL详解进行JDBC编程与增删改查方法
2022/06/16 MySQL