Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python中的with...as用法介绍
May 28 Python
星球大战与Python之间的那些事
Jan 07 Python
python requests 测试代理ip是否生效
Jul 25 Python
Python 利用切片从列表中取出一部分使用的方法
Feb 01 Python
Django框架自定义session处理操作示例
May 27 Python
Tornado实现多进程/多线程的HTTP服务详解
Jul 25 Python
Python线上环境使用日志的及配置文件
Jul 28 Python
python django 原生sql 获取数据的例子
Aug 14 Python
python读取dicom图像示例(SimpleITK和dicom包实现)
Jan 16 Python
在Python中使用K-Means聚类和PCA主成分分析进行图像压缩
Apr 10 Python
Python中使用filter过滤列表的一个小技巧分享
May 02 Python
Keras框架中的epoch、bacth、batch size、iteration使用介绍
Jun 10 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
PHP用GD库生成高质量的缩略图片
2011/03/09 PHP
php查询mysql数据库并将结果保存到数组的方法
2015/03/18 PHP
jquery 屏蔽一个区域内的所有元素,禁止输入
2009/10/22 Javascript
Jquey拖拽控件Draggable使用方法(asp.net环境)
2010/09/28 Javascript
IE6、IE7中获取Button元素的值的bug说明
2011/08/28 Javascript
js关闭模态窗口刷新父页面或跳转页面
2012/12/13 Javascript
js 获取元素下面所有li的两种方法
2014/04/14 Javascript
jQuery内置的AJAX功能和JSON的使用实例
2014/07/27 Javascript
jQuery判断checkbox是否选中的3种方法
2014/08/12 Javascript
jQuery判断数组是否包含了指定的元素
2015/03/10 Javascript
js密码强度实时检测代码
2016/03/02 Javascript
jQuery链式调用与show知识浅析
2016/05/11 Javascript
AngularJS 与百度地图的结合实例
2016/10/20 Javascript
微信小程序 弹窗自定义实例代码
2017/03/08 Javascript
详解Vue中过度动画效果应用
2017/05/25 Javascript
JS/jQuery实现DIV延时几秒后消失或显示的方法
2018/02/12 jQuery
vue将毫秒数转化为正常日期格式的实例
2018/09/16 Javascript
一行JavaScript代码如何实现瀑布流布局
2020/12/11 Javascript
[02:03]风行者至宝清风环佩外观展示
2020/09/05 DOTA
Python开发WebService系列教程之REST,web.py,eurasia,Django
2014/06/30 Python
Python 爬虫学习笔记之多线程爬虫
2016/09/21 Python
TensorFlow 合并/连接数组的方法
2018/07/27 Python
Python中利用aiohttp制作异步爬虫及简单应用
2018/11/29 Python
python 为什么说eval要慎用
2019/03/26 Python
基于sklearn实现Bagging算法(python)
2019/07/11 Python
python中字典按键或键值排序的实现代码
2019/08/27 Python
简单了解python中的f.b.u.r函数
2019/11/02 Python
Python使用pymysql模块操作mysql增删改查实例分析
2019/12/19 Python
python获取依赖包和安装依赖包教程
2020/02/13 Python
说说你所熟悉或听说过的j2ee中的几种常用模式?及对设计模式的一些看法
2012/05/24 面试题
汇智创新科技发展有限公司
2015/12/06 面试题
留学自荐信
2013/10/10 职场文书
幼儿教师自我鉴定
2013/11/02 职场文书
中层干部竞争上岗演讲稿
2014/01/13 职场文书
行政助理岗位职责范本
2015/04/11 职场文书
2015年仓库管理工作总结
2015/05/25 职场文书