Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
python解析html开发库pyquery使用方法
Feb 07 Python
sqlalchemy对象转dict的示例
Apr 22 Python
Python 字典dict使用介绍
Nov 30 Python
梯度下降法介绍及利用Python实现的方法示例
Jul 12 Python
解决Spyder中图片显示太小的问题
Apr 27 Python
在Python中定义一个常量的方法
Nov 10 Python
Python爬虫设置代理IP(图文)
Dec 23 Python
Python实现通过解析域名获取ip地址的方法分析
May 17 Python
Python时间序列缺失值的处理方法(日期缺失填充)
Aug 11 Python
Python 中如何实现参数化测试的方法示例
Dec 10 Python
python实现局域网内实时通信代码
Dec 22 Python
python开发前景如何
Jun 11 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
PHP脚本数据库功能详解(下)
2006/10/09 PHP
浅析memcache启动以及telnet命令详解
2013/06/28 PHP
php操作redis中的hash和zset类型数据的方法和代码例子
2014/07/05 PHP
php实现将wav文件转换成图像文件并在页面中显示的方法
2015/04/21 PHP
js类中获取外部函数名的方法
2007/08/19 Javascript
一个用js实现控制台控件的代码
2007/09/04 Javascript
javascript的内存管理详解
2013/08/07 Javascript
前端开发过程中浏览器版本的两种判定方法
2013/10/30 Javascript
浅谈javascript六种数据类型以及特殊注意点
2013/12/20 Javascript
JavaScript 作用域链解析
2014/11/13 Javascript
jQuery鼠标事件汇总
2015/08/30 Javascript
HTML中setCapture、releaseCapture 使用方法浅析
2016/09/25 Javascript
JavaScript 继承详解(五)
2016/10/11 Javascript
深入理解vue中的$set
2017/06/01 Javascript
JS运动特效之链式运动分析
2018/01/24 Javascript
webpack dll打包重复问题优化的解决
2018/10/10 Javascript
JS 验证码功能的三种实现方式
2018/11/26 Javascript
vue2.0结合Element-ui实战案例
2019/03/06 Javascript
如何在项目中使用log4.js的方法步骤
2019/07/16 Javascript
js实现简单音乐播放器
2020/06/30 Javascript
JS图片懒加载技术实现过程解析
2020/07/27 Javascript
vue-cli3项目打包后自动化部署到服务器的方法
2020/09/16 Javascript
[44:33]EG vs Liquid 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
python学习笔记:字典的使用示例详解
2014/06/13 Python
Pyhton中防止SQL注入的方法
2015/02/05 Python
Python中比较特别的除法运算和幂运算介绍
2015/04/05 Python
详解Python爬虫的基本写法
2016/01/08 Python
Python正则表达式使用经典实例
2016/06/21 Python
在python中利用最小二乘拟合二次抛物线函数的方法
2018/12/29 Python
对tensorflow中的strides参数使用详解
2020/01/04 Python
OpenCV中VideoCapture类的使用详解
2020/02/14 Python
Myprotein芬兰官网:欧洲第一运动营养品牌
2019/05/05 全球购物
党员对照检查材料
2014/09/22 职场文书
代收款委托书范本
2014/10/01 职场文书
奖励申请报告范文
2015/05/15 职场文书
2016年员工年度考核评语
2015/12/02 职场文书