Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
Python线程中对join方法的运用的教程
Apr 09 Python
全面了解Python环境配置及项目建立
Jun 30 Python
Python爬虫之模拟知乎登录的方法教程
May 25 Python
Python实现的爬虫功能代码
Jun 24 Python
python+selenium实现163邮箱自动登陆的方法
Dec 31 Python
python实现定时自动备份文件到其他主机的实例代码
Feb 23 Python
django自带的server 让外网主机访问方法
May 14 Python
Django框架models使用group by详解
Mar 11 Python
pycharm实现print输出保存到txt文件
Jun 01 Python
如何真正的了解python装饰器
Aug 14 Python
Pycharm操作Git及GitHub的步骤详解
Oct 27 Python
关于pytest结合csv模块实现csv格式的数据驱动问题
May 30 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
用PHP实现的生成静态HTML速度快类库
2007/03/31 PHP
php Rename 更改文件、文件夹名称
2011/05/24 PHP
php数组函数序列之array_combine() - 数组合并函数使用说明
2011/10/29 PHP
php计算title标题相似比的方法
2015/07/29 PHP
替换php字符串中的单引号为双引号的方法
2017/02/16 PHP
PHP Include文件实例讲解
2019/02/15 PHP
PHP中的输出echo、print、printf、sprintf、print_r和var_dump的示例代码
2020/12/01 PHP
JavaScript返回网页中超链接数量的方法
2015/04/03 Javascript
JavaScript仿静态分页实现方法
2015/08/04 Javascript
jQuery回到顶部的代码
2016/07/09 Javascript
JS实现弹出下载对话框及常见文件类型的下载
2017/07/13 Javascript
详解js几个绕不开的事件兼容写法
2017/08/30 Javascript
Vue中使用Sortable的示例代码
2018/04/07 Javascript
解决百度Echarts图表坐标轴越界的方法
2018/10/17 Javascript
使用Angular自定义字段校验指令的方法示例
2019/02/01 Javascript
SSM+layUI 根据登录信息显示不同的页面方法
2019/09/20 Javascript
JavaScript闭包相关知识解析
2019/10/19 Javascript
python删除过期文件的方法
2015/05/29 Python
python脚本实现数据导出excel格式的简单方法(推荐)
2016/12/30 Python
python数据结构之链表的实例讲解
2017/07/25 Python
教你用Python创建微信聊天机器人
2020/03/31 Python
对tensorflow 的模型保存和调用实例讲解
2018/07/28 Python
Python3.5常见内置方法参数用法实例详解
2019/04/29 Python
关于pytorch多GPU训练实例与性能对比分析
2019/08/19 Python
Python中包的用法及安装
2020/02/11 Python
世界上第一个创建了罩杯系统的美国内衣品牌:Maidenform
2019/03/23 全球购物
AJAX的全称是什么
2012/11/06 面试题
毕业生自荐信格式
2014/03/07 职场文书
中药专业自荐信范文
2014/03/18 职场文书
公司廉洁自律承诺书
2014/03/27 职场文书
留学经费担保书
2014/05/12 职场文书
万能检讨书2000字
2014/10/17 职场文书
2016父亲节感恩话语
2015/12/09 职场文书
Python实现查询剪贴板自动匹配信息的思路详解
2021/07/09 Python
【海涛解说】暗牧也疯狂,牛蛙成配角
2022/04/01 DOTA
WIN10使用IIS部署ftp服务器详细教程
2022/08/05 Servers