Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python 拷贝对象(深拷贝deepcopy与浅拷贝copy)
Sep 06 Python
Django实现快速分页的方法实例
Oct 22 Python
Python排序搜索基本算法之插入排序实例分析
Dec 11 Python
解决Mac下首次安装pycharm无project interpreter的问题
Oct 29 Python
带你认识Django
Jan 15 Python
python实现手机销售管理系统
Mar 19 Python
Django ValuesQuerySet转json方式
Mar 16 Python
jupyter notebook中美观显示矩阵实例
Apr 17 Python
python 负数取模运算实例
Jun 03 Python
Python中zip函数如何使用
Jun 04 Python
Python实现画图软件功能方法详解
Jul 28 Python
Python爬虫之Selenium中frame/iframe表单嵌套页面
Dec 04 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
将PHP的session数据存储到数据库中的代码实例
2016/06/24 PHP
PHP内存缓存功能memcached示例
2016/10/19 PHP
PHP 二级子目录(后台目录)设置二级域名
2017/03/02 PHP
Juqery Html(),append()等方法的Bug解决方法
2010/12/13 Javascript
Fixie.js 自动填充内容的插件
2012/06/28 Javascript
javascript当中的代码嗅探扩展原生对象和原型(prototype)
2013/01/11 Javascript
枚举的实现求得1-1000所有出现1的数字并计算出现1的个数
2013/09/10 Javascript
javascript解析json实例详解
2014/11/05 Javascript
vue单页应用中如何使用jquery的方法示例
2017/07/27 jQuery
聊聊那些使用前端Javascript实现的机器学习类库
2017/09/18 Javascript
jquery 实现拖动文件上传加载进度条功能
2018/03/18 jQuery
基于vue.js实现分页查询功能
2018/12/29 Javascript
原生js实现五子棋游戏
2020/05/28 Javascript
element-ui点击查看大图的方法示例
2020/12/14 Javascript
[51:27]LGD vs Liquid 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/19 DOTA
python 写的一个爬虫程序源码
2016/02/28 Python
Python使用combinations实现排列组合的方法
2018/11/13 Python
python实现朴素贝叶斯算法
2018/11/19 Python
Python字符串的一些操作方法总结
2019/06/10 Python
Python 占位符的使用方法详解
2019/07/10 Python
使用Python实现正态分布、正态分布采样
2019/11/20 Python
PyTorch使用cpu加载模型运算方式
2020/01/13 Python
Python +Selenium解决图片验证码登录或注册问题(推荐)
2020/02/09 Python
使用Python打造一款间谍程序的流程分析
2020/02/21 Python
recorder.js 基于Html5录音功能的实现
2020/05/26 HTML / CSS
大学生求职自荐信
2013/12/12 职场文书
初婚初育证明
2014/01/14 职场文书
作风建设剖析材料
2014/10/06 职场文书
门市房租房协议书
2014/12/04 职场文书
党员思想汇报材料
2014/12/19 职场文书
2015年财务工作总结范文
2015/03/31 职场文书
大学升旗仪式主持词
2015/07/04 职场文书
优秀班干部主要事迹材料
2015/11/04 职场文书
python b站视频下载的五种版本
2021/05/27 Python
利用uni-app生成微信小程序的踩坑记录
2022/04/05 Javascript
python开发制作好看的时钟效果
2022/05/02 Python