Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python 面向对象 成员的访问约束
Dec 23 Python
python爬虫教程之爬取百度贴吧并下载的示例
Mar 07 Python
详解Python核心对象类型字符串
Feb 11 Python
python 执行终端/控制台命令的例子
Jul 12 Python
Django基础三之视图函数的使用方法
Jul 18 Python
Numpy对数组的操作:创建、变形(升降维等)、计算、取值、复制、分割、合并
Aug 28 Python
Python 支持向量机分类器的实现
Jan 15 Python
TFRecord格式存储数据与队列读取实例
Jan 21 Python
Jmeter HTTPS接口测试证书导入过程图解
Jul 22 Python
Django数据库迁移常见使用方法
Nov 12 Python
Python模拟键盘输入自动登录TGP
Nov 27 Python
Elasticsearch 数据类型及管理
Apr 19 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
Smarty Foreach 使用说明
2010/03/23 PHP
php用数组返回无限分类的列表数据的代码
2010/08/08 PHP
使用php显示搜索引擎来的关键词
2014/02/13 PHP
yii2 resetful 授权验证详解
2017/05/18 PHP
PHP实现字符串翻转功能的方法【递归与循环算法】
2017/11/03 PHP
PHP错误提示It is not safe to rely on the system……的解决方法
2019/03/25 PHP
获取Javscript执行函数名称的方法
2006/12/22 Javascript
js拦截alert对话框另类应用
2013/01/16 Javascript
当json键为数字时的取值方法解析
2013/11/15 Javascript
关闭时刷新父窗口两种方法
2014/05/07 Javascript
详解JavaScript的AngularJS框架中的作用域与数据绑定
2016/03/04 Javascript
JavaScript中用let语句声明作用域的用法讲解
2016/05/20 Javascript
JS获取鼠标选中的文字
2016/08/10 Javascript
AngularJS指令用法详解
2016/11/02 Javascript
浅析JavaScript中作用域和作用域链
2016/12/06 Javascript
JS对象创建的几种方式整理
2017/02/28 Javascript
自定义类似于jQuery UI Selectable 的Vue指令v-selectable
2017/08/23 jQuery
vue-router history模式下的微信分享小结
2018/07/05 Javascript
layui自定义插件citySelect实现省市区三级联动选择
2019/07/26 Javascript
微信小程序之数据绑定原理解析
2019/08/14 Javascript
vue实现自定义多选按钮
2020/07/16 Javascript
vue.js封装switch开关组件的操作
2020/10/26 Javascript
Python中list列表的一些进阶使用方法介绍
2015/08/15 Python
Python中的with语句与上下文管理器学习总结
2016/06/28 Python
python 执行shell命令并将结果保存的实例
2018/05/11 Python
纯DOM+CSS3实现简单的小风车动画
2016/09/27 HTML / CSS
英国第一家领先的在线处方眼镜零售商:Glasses Direct
2018/02/23 全球购物
法国隐形眼镜网站:VisionDirect.fr
2020/03/03 全球购物
学生周末回家住宿长期请假条
2014/02/15 职场文书
委托函范文
2015/01/29 职场文书
2015年“我们的节日·中秋节”活动总结
2015/07/30 职场文书
应收账款管理制度
2015/08/06 职场文书
浅谈python数据类型及其操作
2021/05/25 Python
浅谈哪个Python库才最适合做数据可视化
2021/06/28 Python
Python pandas求方差和标准差的方法实例
2021/08/04 Python
「我的青春恋爱物语果然有问题。-妄言录-」第20卷封面公开
2022/03/21 日漫