Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
python用字典统计单词或汉字词个数示例
Apr 22 Python
Python中Collection的使用小技巧
Aug 18 Python
Python单链表的简单实现方法
Sep 23 Python
在Python中使用poplib模块收取邮件的教程
Apr 29 Python
python安装oracle扩展及数据库连接方法
Feb 21 Python
Python爬虫实现爬取京东手机页面的图片(实例代码)
Nov 30 Python
Jacobi迭代算法的Python实现详解
Jun 29 Python
pytorch 实现将自己的图片数据处理成可以训练的图片类型
Jan 08 Python
Python+Dlib+Opencv实现人脸采集并表情判别功能的代码
Jul 01 Python
Keras loss函数剖析
Jul 06 Python
python 实现Harris角点检测算法
Dec 11 Python
Python列表元素删除和remove()方法详解
Jan 04 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
php adodb连接不同数据库
2009/03/19 PHP
使用php实现下载生成某链接快捷方式的解决方法
2013/05/07 PHP
PHP生成指定随机字符串的简单实现方法
2015/04/01 PHP
CentOS下PHP7的编译安装及MySQL的支持和一些常见问题的解决办法
2015/12/17 PHP
PHP读取word文档的方法分析【基于COM组件】
2017/08/01 PHP
thinkPHP框架实现生成条形码的方法示例
2018/06/06 PHP
PHP 实现文件压缩解压操作的方法
2019/06/14 PHP
JS应用之禁止抓屏、复制、打印
2008/02/21 Javascript
基于jQuery的表格操作插件
2010/04/22 Javascript
jQuery操作 input type=checkbox的实现代码
2012/06/14 Javascript
浅析JavaScript中的常用算法与函数
2013/11/21 Javascript
iframe的onreadystatechange事件在firefox下的使用
2014/04/16 Javascript
JS实现自动变化的导航菜单效果代码
2015/09/09 Javascript
javascript高级选择器querySelector和querySelectorAll全面解析
2016/04/07 Javascript
js如何准确获取当前页面url网址信息
2020/09/13 Javascript
由浅入深剖析Angular表单验证
2016/07/14 Javascript
Bootstrap页面缩小变形的快速解决办法
2017/02/03 Javascript
xmlplus组件设计系列之路由(ViewStack)(7)
2017/05/02 Javascript
小程序实现搜索界面 小程序实现推荐搜索列表效果
2019/05/18 Javascript
Electron-vue开发的客户端支付收款工具的实现
2019/05/24 Javascript
opencv python 图像去噪的实现方法
2018/08/31 Python
Python文件读写常见用法总结
2019/02/22 Python
在python中,使用scatter绘制散点图的实例
2019/07/03 Python
Python3 字典dictionary入门基础附实例
2020/02/10 Python
Python-jenkins模块获取jobs的执行状态操作
2020/05/12 Python
python 带时区的日期格式化操作
2020/10/23 Python
python软件测试Jmeter性能测试JDBC Request(结合数据库)的使用详解
2021/01/26 Python
医疗保健专业人士购物网站:Scrubs & Beyond
2017/02/08 全球购物
全球最大的游戏市场:G2A
2018/07/05 全球购物
COSETTE官网:奢华,每天
2020/03/22 全球购物
学生爱国演讲稿
2014/01/14 职场文书
小学生操行评语大全
2014/04/22 职场文书
公积金贷款承诺书
2015/04/30 职场文书
MySQL pt-slave-restart工具的使用简介
2021/04/07 MySQL
新手初学Java网络编程
2021/07/07 Java/Android
使用CSS定位HTML元素的实现方法
2022/07/07 HTML / CSS