Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python中集合的内建函数和内建方法学习教程
Aug 19 Python
Python2.x版本中基本的中文编码问题解决
Oct 12 Python
Python爬虫:通过关键字爬取百度图片
Feb 17 Python
python: 自动安装缺失库文件的方法
Oct 22 Python
Python HTML解析模块HTMLParser用法分析【爬虫工具】
Apr 05 Python
如何使用Python 打印各种三角形
Jun 28 Python
python2.7实现复制大量文件及文件夹资料
Aug 31 Python
Windows平台Python编程必会模块之pywin32介绍
Oct 01 Python
pytorch 修改预训练model实例
Jan 18 Python
Python日志:自定义输出字段 json格式输出方式
Apr 27 Python
对Matlab中共轭、转置和共轭装置的区别说明
May 11 Python
Python爬虫之自动爬取某车之家各车销售数据
Jun 02 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
php中单个数据库字段多列显示(单字段分页、横向输出)
2014/07/28 PHP
Symfony的安装和配置方法
2016/03/17 PHP
PHP 模拟登陆功能实例详解
2019/09/10 PHP
PHP实现发送微博消息功能完整示例
2019/12/04 PHP
PHP接入支付宝接口失效流程详解
2020/11/10 PHP
JQuery 绑定事件时传递参数的实现方法
2009/10/13 Javascript
seajs1.3.0源码解析之module依赖有序加载
2012/11/07 Javascript
js中关于一个分号的崩溃示例
2013/11/11 Javascript
js实现在同一窗口浏览图片
2014/09/17 Javascript
jQuery实现表格行上移下移和置顶的方法
2015/05/22 Javascript
jQuery Easyui学习教程之实现datagrid在没有数据时显示相关提示内容
2016/07/09 Javascript
AngularJS基础 ng-dblclick 指令用法
2016/08/01 Javascript
bmob js-sdk 在vue中的使用教程
2018/01/21 Javascript
解决vue2中使用axios http请求出现的问题
2018/03/05 Javascript
jQuery与原生JavaScript选择HTML元素集合用法对比分析
2019/11/26 jQuery
Openlayers绘制聚合标注
2020/09/28 Javascript
[53:15]Newbee vs Pain 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
[01:02:32]DOTA2-DPC中国联赛 正赛 iG vs PSG.LGD BO3 第二场 2月26日
2021/03/11 DOTA
python 从远程服务器下载东西的代码
2013/02/10 Python
Python中的闭包总结
2014/09/18 Python
Python中 Lambda表达式全面解析
2016/11/28 Python
Python实现读取json文件到excel表
2017/11/18 Python
Python调用graphviz绘制结构化图形网络示例
2019/11/22 Python
python 实现字符串下标的输出功能
2020/02/13 Python
Python全面分析系统的时域特性和频率域特性
2020/02/26 Python
Python 爬虫批量爬取网页图片保存到本地的实现代码
2020/12/24 Python
HTML块级标签汇总(小篇)
2016/07/13 HTML / CSS
西班牙英格列斯百货官网:El Corte Inglés
2016/09/25 全球购物
Kathmandu英国网站:新西兰户外运动品牌
2017/03/27 全球购物
aden + anais英国官网:美国婴儿贴身用品品牌
2019/09/08 全球购物
大学生的应聘自我评价
2013/12/13 职场文书
高校辅导员推荐信范文
2013/12/25 职场文书
我的五年职业生涯规划
2014/01/23 职场文书
小学先进集体事迹材料
2014/05/31 职场文书
党内外群众意见范文
2015/06/02 职场文书
Nginx 根据URL带的参数转发的实现
2021/04/01 Servers