Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
python求斐波那契数列示例分享
Feb 14 Python
Python base64编码解码实例
Jun 21 Python
Python脚本获取操作系统版本信息
Dec 17 Python
python编程羊车门问题代码示例
Oct 25 Python
Python cookbook(字符串与文本)在字符串的开头或结尾处进行文本匹配操作
Apr 20 Python
实例讲解Python3中abs()函数
Feb 19 Python
django中SMTP发送邮件配置详解
Jul 19 Python
django 消息框架 message使用详解
Jul 22 Python
Python+AutoIt实现界面工具开发过程详解
Aug 07 Python
在python中使用pymysql往mysql数据库中插入(insert)数据实例
Mar 02 Python
python实现扫雷小游戏
Apr 24 Python
Python max函数中key的用法及原理解析
Jun 26 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
网络资源
2006/10/09 PHP
制作特殊字的脚本
2006/06/26 Javascript
javascript Select标记中options操作方法集合
2008/10/22 Javascript
jquery下动态显示jqGrid以及jqGrid的属性设置容易出现问题的解决方法
2010/10/22 Javascript
点击进行复制的JS代码实例
2013/08/23 Javascript
iframe如何动态创建及释放其所占内存
2014/09/03 Javascript
非jQuery实现照片散落桌子上,单击放大的LightBox效果
2014/11/28 Javascript
jquery利用命名空间移除绑定事件的方法
2015/03/11 Javascript
JavaScript中调用函数的4种方式代码实例
2015/07/08 Javascript
AngularJS全局scope与Isolate scope通信用法示例
2016/11/22 Javascript
JavaScript实现左右下拉框动态增删示例
2017/03/09 Javascript
微信小程序实现YDUI的ScrollTab组件
2018/02/02 Javascript
Vue 项目分环境打包的方法示例
2018/08/03 Javascript
Electron中实现大文件上传和断点续传功能
2018/10/28 Javascript
基于Vue.js+Nuxt开发自定义弹出层组件
2020/10/09 Javascript
python调用系统ffmpeg实现视频截图、http发送
2018/03/06 Python
Python实现OpenCV的安装与使用示例
2018/03/30 Python
python中不能连接超时的问题及解决方法
2018/06/10 Python
Python实现简单的文本相似度分析操作详解
2018/06/16 Python
Python数据预处理之数据规范化(归一化)示例
2019/01/08 Python
python redis 删除key脚本的实例
2019/02/19 Python
python 写一个性能测试工具(一)
2020/10/24 Python
python中封包建立过程实例
2021/02/18 Python
10个很棒的 CSS3 开发工具 推荐
2011/05/16 HTML / CSS
详解使用双缓存解决Canvas clearRect引起的闪屏问题
2019/04/29 HTML / CSS
Html5在手机端调用相机的方法实现
2020/05/13 HTML / CSS
static全局变量与普通的全局变量有什么区别?static局部变量和普通局部变量有什么区别?static函数与普通函数有什么区别?
2015/02/22 面试题
项目专员岗位职责
2013/12/04 职场文书
网吧七夕活动策划方案
2014/08/31 职场文书
综合素质自我评价评语
2015/03/06 职场文书
房地产销售员岗位职责
2015/04/11 职场文书
聘任通知书
2015/09/21 职场文书
离婚协议书格式范本
2016/03/18 职场文书
Python多个MP4合成视频的实现方法
2021/07/16 Python
Python OpenCV超详细讲解读取图像视频和网络摄像头
2022/04/02 Python
css样式important规则的正确使用方式
2022/06/10 HTML / CSS