Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python中实现两个字典(dict)合并的方法
Sep 23 Python
Python中装饰器学习总结
Feb 10 Python
详解Appium+Python之生成html测试报告
Jan 04 Python
Python3.5 Pandas模块缺失值处理和层次索引实例详解
Apr 23 Python
Python中py文件转换成exe可执行文件的方法
Jun 14 Python
django之自定义软删除Model的方法
Aug 14 Python
python的json中方法及jsonpath模块用法分析
Dec 06 Python
Python数据可视化:顶级绘图库plotly详解
Dec 07 Python
PyTorch里面的torch.nn.Parameter()详解
Jan 03 Python
python实现用户名密码校验
Mar 18 Python
python 下载m3u8视频的示例代码
Nov 11 Python
python中__slots__节约内存的具体做法
Jul 04 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
一个简洁的多级别论坛
2006/10/09 PHP
smarty中先strip_tags过滤html标签后truncate截取文章运用
2010/10/25 PHP
无JS,完全php面向过程数据分页实现代码
2012/08/27 PHP
YII路径的用法总结
2014/07/09 PHP
PHP合并discuz用户脚本的方法
2015/08/04 PHP
php中的抽象方法和抽象类
2017/02/14 PHP
PHP新特性之字节码缓存和内置服务器
2017/08/11 PHP
PHP使用mysqli同时执行多条sql查询语句的实例
2019/03/22 PHP
破解Session cookie的方法
2006/07/28 Javascript
js或css实现滚动广告的几种方案
2010/01/28 Javascript
解析Jquery取得iframe中元素的几种方法
2013/07/04 Javascript
鼠标移动到图片名上,显示图片的简单实例
2013/07/14 Javascript
JS对话框_JS模态对话框showModalDialog用法总结
2014/01/11 Javascript
JS控制一个DIV层在指定时间内消失的方法
2014/02/17 Javascript
JavaScript获取table中某一列的值的方法
2014/05/06 Javascript
JavaScript中Function函数与Object对象的关系
2015/12/17 Javascript
JavaScript SHA1加密算法实现详细代码
2016/10/06 Javascript
详解nuxt sass全局变量(公共scss解决方案)
2018/06/27 Javascript
微信小程序map组件结合高德地图API实现wx.chooseLocation功能示例
2019/01/23 Javascript
详解React项目中碰到的IE问题
2019/03/14 Javascript
深入探索VueJS Scoped CSS 实现原理
2019/09/23 Javascript
vue-cli和v-charts实现可视化图表过程解析
2019/10/08 Javascript
Ubuntu 16.04 LTS中源码安装Python 3.6.0的方法教程
2016/12/27 Python
python实现Floyd算法
2018/01/03 Python
我用Python抓取了7000 多本电子书案例详解
2019/03/25 Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
2019/08/01 Python
美国南部最大的家族百货公司:Belk
2017/01/30 全球购物
伦敦最受欢迎的蛋糕店:Konditor & Cook
2019/11/01 全球购物
软件测试笔试题
2012/10/25 面试题
护理专业本科生自荐信
2013/10/01 职场文书
大学生四年生活自我鉴定
2013/11/21 职场文书
导游实习生自荐书
2014/01/28 职场文书
公司接待方案
2014/03/08 职场文书
承诺书范文
2014/06/03 职场文书
给校长的建议书作文400字
2015/09/14 职场文书
MySQL的表级锁,行级锁,排它锁和共享锁
2022/07/15 MySQL