Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python的ORM框架SQLObject入门实例
Apr 28 Python
matplotlib绘制动画代码示例
Jan 02 Python
Python OpenCV处理图像之图像直方图和反向投影
Jul 10 Python
Pandas DataFrame 取一行数据会得到Series的方法
Nov 10 Python
python调用并链接MATLAB脚本详解
Jul 05 Python
python3实现斐波那契数列(4种方法)
Jul 15 Python
pandas read_excel()和to_excel()函数解析
Sep 19 Python
flask 使用 flask_apscheduler 做定时循环任务的实现
Dec 10 Python
python3 Scrapy爬虫框架ip代理配置的方法
Jan 17 Python
tensorflow-gpu安装的常见问题及解决方案
Jan 20 Python
解决python Jupyter不能导入外部包问题
Apr 15 Python
Python中实现输入一个整数的案例
May 03 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
PHP中通过加号合并数组的一个简单方法分享
2011/01/27 PHP
多个PHP中文字符串截取函数
2013/11/12 PHP
PHP遍历数组的三种方法及效率对比分析
2015/02/12 PHP
php实现用已经过去多长时间的方式显示时间
2015/06/05 PHP
Zend Framework实现将session存储在memcache中的方法
2016/03/22 PHP
stripos函数知识点实例分享
2019/02/11 PHP
PHP 7.4中使用预加载的方法详解
2019/07/08 PHP
javascript call和apply方法
2008/11/24 Javascript
使用dynatrace-ajax跟踪JavaScript的性能
2010/04/12 Javascript
jquery验证表单中的单选与多选实例
2013/08/18 Javascript
jquery实现上下左右滑动的方法
2015/02/09 Javascript
JavaScript实现将文本框的值插入指定位置的方法
2015/08/13 Javascript
javascript从定义到执行 你不知道的那些事
2016/01/04 Javascript
jQuery简单实现彩色云标签效果示例
2016/08/01 Javascript
手机图片预览插件photoswipe.js使用总结
2016/08/25 Javascript
JS 实现可停顿的垂直滚动实例代码
2016/11/23 Javascript
js图片轮播插件的封装
2017/07/21 Javascript
JS实现的倒计时恢复按钮点击功能【可用于协议阅读倒计时】
2018/04/19 Javascript
ES6基础之 Promise 对象用法实例详解
2019/08/22 Javascript
js 获取本周、上周、本月、上月、本季度、上季度的开始结束日期
2020/02/01 Javascript
微信小程序实现拼图小游戏
2020/10/22 Javascript
Vue实现菜单切换功能
2020/11/08 Javascript
sublime text 3配置使用python操作方法
2017/06/11 Python
python实现浪漫的烟花秀
2019/01/30 Python
python五子棋游戏的设计与实现
2019/06/18 Python
python实现点击按钮修改数据的方法
2019/07/17 Python
深入理解HTML的FormData对象
2016/05/17 HTML / CSS
印尼最大的在线购物网站:MatahariMall.com
2016/08/26 全球购物
Python如何实现单例模式
2016/06/03 面试题
高一生物教学反思
2014/01/17 职场文书
抵押贷款承诺书
2014/05/30 职场文书
四风批评与自我批评发言稿
2014/10/14 职场文书
2015年行政部工作总结
2015/04/28 职场文书
大学生实习证明
2015/06/16 职场文书
股权投资协议书
2016/03/23 职场文书
手把手教你使用TensorFlow2实现RNN
2021/07/15 Python