Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
详谈在flask中使用jsonify和json.dumps的区别
Mar 26 Python
Python3 max()函数基础用法
Feb 19 Python
Python Lambda函数使用总结详解
Dec 11 Python
Python 元组拆包示例(Tuple Unpacking)
Dec 24 Python
Django认证系统user对象实现过程解析
Mar 02 Python
django rest framework serializer返回时间自动格式化方法
Mar 31 Python
Python写捕鱼达人的游戏实现
Mar 31 Python
Django bulk_create()、update()与数据库事务的效率对比分析
May 15 Python
python time.strptime格式化实例详解
Feb 03 Python
python+selenium小米商城红米K40手机自动抢购的示例代码
Mar 24 Python
如何判断pytorch是否支持GPU加速
Jun 01 Python
Python实现生成bmp图像的方法
Jun 13 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
PHP脚本的10个技巧(4)
2006/10/09 PHP
PHP判断字符串长度的两种方法很实用
2015/09/22 PHP
thinkphp框架类库扩展操作示例
2019/11/26 PHP
jquery 关于event.target使用的几点说明介绍
2013/04/26 Javascript
基于jQuery实现顶部导航栏功能
2016/12/27 Javascript
微信小程序云开发获取文件夹下所有文件(推荐)
2019/11/14 Javascript
Vuex中的Mutations的具体使用方法
2020/06/01 Javascript
antd日期选择器禁止选择当天之前的时间操作
2020/10/29 Javascript
Python脚本实现网卡流量监控
2015/02/14 Python
Python中使用dom模块生成XML文件示例
2015/04/05 Python
Django实现的自定义访问日志模块示例
2017/06/23 Python
python 禁止函数修改列表的实现方法
2017/08/03 Python
Python网络编程基于多线程实现多用户全双工聊天功能示例
2018/04/10 Python
Python wxPython库消息对话框MessageDialog用法示例
2018/09/03 Python
python绘制多个曲线的折线图
2020/03/23 Python
用Python实现读写锁的示例代码
2018/11/05 Python
在Django中自定义filter并在template中的使用详解
2020/05/19 Python
python字典key不能是可以是啥类型
2020/08/04 Python
vscode配置anaconda3的方法步骤
2020/08/08 Python
pytorch简介
2020/11/11 Python
CSS3 clip-path 用法介绍详解
2018/03/01 HTML / CSS
五款漂亮的纯CSS3动画按钮的实例教程
2014/11/21 HTML / CSS
英国领先的狗和宠物美容专家:Christies Direct
2017/04/03 全球购物
俄罗斯马克西多姆家居用品网上商店:Максидом
2020/02/06 全球购物
金融专业个人求职信
2013/09/22 职场文书
个人自荐书
2013/12/20 职场文书
学前教育专业求职信
2014/09/02 职场文书
镇副书记专题民主生活会对照检查材料思想汇报
2014/10/02 职场文书
领导干部群众路线教育实践活动剖析材料
2014/10/10 职场文书
幼儿园大班见习报告
2014/10/31 职场文书
2014年安全生产工作总结
2014/11/13 职场文书
2014年实习期工作总结
2014/11/27 职场文书
导游词300字
2015/02/13 职场文书
秋季运动会加油词
2015/07/18 职场文书
Python一行代码实现自动发邮件功能
2021/05/30 Python
Python闭包的定义和使用方法
2022/04/11 Python