Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
Python实现设置windows桌面壁纸代码分享
Mar 28 Python
列举Python中吸引人的一些特性
Apr 09 Python
深入理解Django的自定义过滤器
Oct 17 Python
win7 x64系统中安装Scrapy的方法
Nov 18 Python
Python实现多属性排序的方法
Dec 05 Python
Python删除n行后的其他行方法
Jan 28 Python
Python 读取 YUV(NV12) 视频文件实例
Dec 09 Python
python3获取文件中url内容并下载代码实例
Dec 27 Python
python如何获取apk的packagename和activity
Jan 10 Python
tensorflow -gpu安装方法(不用自己装cuda,cdnn)
Jan 20 Python
python GUI库图形界面开发之PyQt5打开保存对话框QFileDialog详细使用方法与实例
Feb 27 Python
Pycharm插件(Grep Console)自定义规则输出颜色日志的方法
May 27 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
php中关于codeigniter的xmlrpc的类在进行数据交换时的类型问题
2011/07/03 PHP
php中的注释、变量、数组、常量、函数应用介绍
2012/11/16 PHP
PHP使用自定义方法实现数组合并示例
2016/07/07 PHP
使用jQuery重置(reset)表单的方法
2014/05/05 Javascript
jQuery异步上传文件插件ajaxFileUpload详细介绍
2015/05/19 Javascript
jQuery复制表单元素附源码分享效果演示
2015/09/30 Javascript
Node.js文件操作方法汇总
2016/03/22 Javascript
超链接怎么正确调用javascript函数
2016/05/23 Javascript
jQuery Chart图表制作组件Highcharts用法详解
2016/06/01 Javascript
Javascript同时声明一连串(多个)变量的方法
2017/01/23 Javascript
基于AGS JS开发自定义贴图图层
2017/03/31 Javascript
HTML5+Canvas调用手机拍照功能实现图片上传(下)
2017/04/21 Javascript
通俗解释JavaScript正则表达式快速记忆
2017/08/23 Javascript
JavaScrip关于创建常量的知识点
2017/12/07 Javascript
vue单页面实现当前页面刷新或跳转时提示保存
2018/11/02 Javascript
JavaScript监听键盘事件代码实现
2020/06/03 Javascript
Python创建日历实例
2014/08/21 Python
Python中对列表排序实例
2015/01/04 Python
python文件操作之目录遍历实例分析
2015/05/20 Python
Python基于pygame实现的font游戏字体(附源码)
2015/11/11 Python
Python设计模式之门面模式简单示例
2018/01/09 Python
python使用opencv按一定间隔截取视频帧
2018/03/06 Python
python二进制文件的转译详解
2019/07/03 Python
Django模型修改及数据迁移实现解析
2019/08/01 Python
pandas的to_datetime时间转换使用及学习心得
2019/08/11 Python
使用Python的networkx绘制精美网络图教程
2019/11/21 Python
Python线程障碍对象Barrier原理详解
2019/12/02 Python
Python安装whl文件过程图解
2020/02/18 Python
python基于pygame实现飞机大作战小游戏
2020/11/19 Python
办公室主任职责范文
2013/11/08 职场文书
考试不及格的检讨书
2014/01/22 职场文书
《金孔雀轻轻跳》教学反思
2014/04/20 职场文书
2014中考励志标语
2014/06/05 职场文书
实习报告范文
2019/07/30 职场文书
CSS极坐标的实例代码
2021/06/03 HTML / CSS
Spring Boot接口定义和全局异常统一处理
2022/04/20 Java/Android