Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
python client使用http post 到server端的代码
Feb 10 Python
Python内置数据类型详解
Aug 18 Python
python实现可视化动态CPU性能监控
Jun 21 Python
python 借助numpy保存数据为csv格式的实现方法
Jul 04 Python
python求解数组中两个字符串的最小距离
Sep 27 Python
解决pycharm py文件运行后停止按钮变成了灰色的问题
Nov 29 Python
Python安装与基本数据类型教程详解
May 29 Python
Python 日期区间处理 (本周本月上周上月...)
Aug 08 Python
python multiprocessing模块用法及原理介绍
Aug 20 Python
python将字符串转变成dict格式的实现
Nov 18 Python
Python使用Tkinter实现转盘抽奖器的步骤详解
Jan 06 Python
keras 两种训练模型方式详解fit和fit_generator(节省内存)
Jul 03 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
PHP怎样调用MSSQL的存储过程
2006/10/09 PHP
PHP实现域名whois查询的代码(数据源万网、新网)
2010/02/22 PHP
Ubuntu下安装PHP的mongodb扩展操作命令
2015/07/04 PHP
Laravel如何友好的修改.env配置文件详解
2017/06/07 PHP
JQuery实现简单验证码提示解决方案
2012/12/20 Javascript
javascript在myeclipse中报错的解决方法
2013/10/29 Javascript
php实例分享之实现显示网站运行时间
2014/05/20 Javascript
贴近用户体验的Jquery日期、时间选择插件
2015/08/19 Javascript
js实现横向伸展开的二级导航菜单代码
2015/08/28 Javascript
JavaScript解八皇后问题的方法总结
2016/06/12 Javascript
在js中实现邮箱格式的验证方法(推荐)
2016/10/24 Javascript
vue2.0+webpack环境的构造过程
2016/11/08 Javascript
微信公众号  提示:Unauthorized API function 问题解决方法
2016/12/05 Javascript
node.js中fs.stat与fs.fstat的区别详解
2017/06/01 Javascript
浅析Vue实例以及生命周期
2018/08/14 Javascript
详解keep-alive + vuex 让缓存的页面灵活起来
2019/04/19 Javascript
通过js示例讲解时间复杂度与空间复杂度
2019/08/06 Javascript
js实现坦克移动小游戏
2019/10/28 Javascript
[13:40]TI3青蛙君全程回顾 DOTA2我们为梦想再战
2013/09/13 DOTA
[59:08]Ti4 冒泡赛第二天 NEWBEE vs Titan 2
2014/07/15 DOTA
对Python信号处理模块signal详解
2019/01/09 Python
Python批量处理csv并保存过程解析
2020/05/16 Python
python如何快速生成时间戳
2020/07/21 Python
全球立体声:World Wide Stereo
2018/09/29 全球购物
全球最大的生存食品、水和装备专用在线市场:BePrepared.com
2020/01/02 全球购物
Molton Brown美国官网:奢华美容、香水、沐浴和身体护理
2020/09/02 全球购物
工程师岗位职责
2013/11/08 职场文书
小车司机岗位职责
2013/11/25 职场文书
护士的岗位职责
2013/12/04 职场文书
入党自我评价范文
2014/02/02 职场文书
倡议书范文格式
2014/05/12 职场文书
2014年教学工作总结
2014/11/13 职场文书
医德医风学习心得体会
2016/01/25 职场文书
幼儿园语言教学反思
2016/02/23 职场文书
读完《骆驼祥子》的观后感!
2019/07/05 职场文书
mysql中DCL常用的用户和权限控制
2022/03/31 MySQL