Python实现抓取网页并且解析的实例


Posted in Python onSeptember 20, 2014

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下:

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\?src=(.+?)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\?url=.+\".*?>更多知道相关问题.*?</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s?&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s?wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

希望本文所述对大家Python程序设计的学习有所帮助。

Python 相关文章推荐
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
Python 制作糗事百科爬虫实例
Sep 22 Python
基于Python中capitalize()与title()的区别详解
Dec 09 Python
Python实现读取txt文件并画三维图简单代码示例
Dec 09 Python
wtfPython—Python中一组有趣微妙的代码【收藏】
Aug 31 Python
python定时按日期备份MySQL数据并压缩
Apr 19 Python
pycharm工具连接mysql数据库失败问题
Apr 01 Python
python json.dumps() json.dump()的区别详解
Jul 14 Python
使用Python操作MySQL的小技巧
Sep 10 Python
Django通过设置CORS解决跨域问题
Nov 26 Python
python中slice参数过长的处理方法及实例
Dec 15 Python
OpenCV-Python实现人脸美白算法的实例
Jun 11 Python
跟老齐学Python之字典,你还记得吗?
Sep 20 #Python
跟老齐学Python之再深点,更懂list
Sep 20 #Python
跟老齐学Python之画圈还不简单吗?
Sep 20 #Python
跟老齐学Python之list和str比较
Sep 20 #Python
Python显示进度条的方法
Sep 20 #Python
python中对list去重的多种方法
Sep 18 #Python
Python中用Descriptor实现类级属性(Property)详解
Sep 18 #Python
You might like
解析PHP正则提取或替换img标记属性
2013/06/26 PHP
Thinkphp搜索时首页分页和搜索页保持条件分页的方法
2014/12/05 PHP
laravel通过创建自定义artisan make命令来新建类文件详解
2017/08/17 PHP
php生成条形码的图片的实例详解
2017/09/13 PHP
javascript 控制弹出窗口
2007/04/10 Javascript
javascript中的document.open()方法使用介绍
2013/10/09 Javascript
巧用局部变量提升javascript性能
2014/02/24 Javascript
js采用concat和sort将N个数组拼接起来的方法
2016/01/21 Javascript
JavaScript页面实时显示当前时间实例代码
2016/10/23 Javascript
nodejs处理图片的中间件node-images详解
2017/05/08 NodeJs
JavaScript实现移动端轮播效果
2017/06/06 Javascript
微信小程序实现换肤功能
2018/03/14 Javascript
解决 viewer.js 动态更新图片导致无法预览的问题
2019/05/14 Javascript
vue 微信扫码登录(自定义样式)
2020/01/06 Javascript
JavaScript实现鼠标经过表格某行时此行变色
2020/11/20 Javascript
举例详解Python中的split()函数的使用方法
2015/04/07 Python
Python根据区号生成手机号码的方法
2015/07/08 Python
Python内置数据结构与操作符的练习题集锦
2016/07/01 Python
Python中类型检查的详细介绍
2017/02/13 Python
Python算术运算符实例详解
2017/05/31 Python
老生常谈Python之装饰器、迭代器和生成器
2017/07/26 Python
Python数据分析之双色球统计两个红和蓝球哪组合比例高的方法
2018/02/03 Python
pycharm执行python时,填写参数的方法
2018/10/29 Python
Python线程池模块ThreadPoolExecutor用法分析
2018/12/28 Python
python将邻接矩阵输出成图的实现
2019/11/21 Python
Python爬取365好书中小说代码实例
2020/02/28 Python
html5组织文档结构_动力节点Java学院整理
2017/07/11 HTML / CSS
北美最大的零售退货翻新商:VIP Outlet
2019/11/21 全球购物
买房子个人收入证明
2014/10/12 职场文书
入党群众意见范文
2015/06/02 职场文书
鸡毛信观后感
2015/06/11 职场文书
儿子满月酒致辞
2015/07/29 职场文书
五年级作文之成长
2019/09/16 职场文书
创业计划书之香辣虾火锅
2019/09/23 职场文书
SQL Server数据库基本概念、组成、常用对象与约束
2022/03/20 SQL Server
Mysql数据库事务的脏读幻读及不可重复读详解
2022/05/30 MySQL