Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
python发腾讯微博代码分享
Jan 10 Python
使用Python脚本生成随机IP的简单方法
Jul 30 Python
Eclipse和PyDev搭建完美Python开发环境教程(Windows篇)
Nov 16 Python
python之验证码生成(gvcode与captcha)
Jan 02 Python
python重试装饰器的简单实现方法
Jan 31 Python
python多进程读图提取特征存npy
May 21 Python
详解Numpy中的数组拼接、合并操作(concatenate, append, stack, hstack, vstack, r_, c_等)
May 27 Python
python输出带颜色字体实例方法
Sep 01 Python
python跨文件使用全局变量的实现
Nov 17 Python
python使用正则表达式匹配txt特定字符串(有换行)
Dec 09 Python
python scrapy简单模拟登录的代码分析
Jul 21 Python
Python中的嵌套循环详情
Mar 23 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
PHP5与MySQL数据库操作常用代码 收集
2010/03/21 PHP
深入了解 register_globals (附register_globals=off 网站打不开的解决方法)
2012/06/27 PHP
详解PHP实现定时任务的五种方法
2016/07/25 PHP
Yii CFileCache 获取不到值的原因分析
2017/02/08 PHP
PHP基于接口技术实现简单的多态应用完整实例
2017/04/26 PHP
JavaScript 对象、函数和继承
2009/07/07 Javascript
JS函数验证总结(方便js客户端输入验证)
2010/10/29 Javascript
用Mootools获得操作索引的两种方法分享
2011/12/12 Javascript
通过AJAX的JS、JQuery两种方式解析XML示例介绍
2013/09/23 Javascript
kindeditor编辑器点中图片滚动条往上顶的bug
2015/07/05 Javascript
jQuery Mobile弹出窗、弹出层知识汇总
2016/01/05 Javascript
this,this,再次讨论javascript中的this,超全面(经典)
2016/01/05 Javascript
Vue2递归组件实现树形菜单
2017/04/10 Javascript
jQuery用noConflict代替$的实现方法
2017/04/12 jQuery
bootstrap的工具提示实例代码
2017/05/17 Javascript
原生JS实现的双色球功能示例
2018/02/02 Javascript
详解NodeJs项目 CentOs linux服务器线上部署
2019/09/16 NodeJs
详解Vue的watch中的immediate与watch是什么意思
2019/12/30 Javascript
JavaScript console的使用方法实例分析
2020/04/28 Javascript
Python实现将xml导入至excel
2015/11/20 Python
Python从ZabbixAPI获取信息及实现Zabbix-API 监控的方法
2018/09/17 Python
Pycharm编辑器功能之代码折叠效果的实现代码
2020/10/15 Python
Python 调用C++封装的进一步探索交流
2021/03/04 Python
鱼油专家:Omegavia
2016/10/10 全球购物
俄罗斯连接商品和买家的在线平台:goods.ru
2020/11/30 全球购物
校园门卫岗位职责
2013/12/09 职场文书
机械制造专业个人的自我评价
2013/12/28 职场文书
工会主席岗位责任制
2014/02/11 职场文书
统计系教授推荐信
2014/02/28 职场文书
励志广播稿300字(5篇)
2014/09/15 职场文书
车间主任岗位职责范本
2015/04/08 职场文书
《狮子和鹿》教学反思
2016/02/16 职场文书
2019学校运动会开幕词
2019/05/13 职场文书
表扬稿表扬信的格式及范文
2019/06/24 职场文书
Python采集爬取京东商品信息和评论并存入MySQL
2022/04/12 Python
海康机器人重磅发布全新算法开发平台VM4.2
2022/04/21 数码科技