Python正则抓取新闻标题和链接的方法示例


Posted in Python onApril 24, 2017

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)
Python 相关文章推荐
简单的抓取淘宝图片的Python爬虫
Dec 25 Python
Python3中lambda表达式与函数式编程讲解
Jan 14 Python
Python实现查找字符串数组最长公共前缀示例
Mar 27 Python
Python IDE Pycharm中的快捷键列表用法
Aug 08 Python
Python中注释(多行注释和单行注释)的用法实例
Aug 28 Python
Python的赋值、深拷贝与浅拷贝的区别详解
Feb 12 Python
Python如何实现爬取B站视频
May 20 Python
virtualenv介绍及简明教程
Jun 23 Python
浅谈优化Django ORM中的性能问题
Jul 09 Python
Python3爬虫中识别图形验证码的实例讲解
Jul 30 Python
Python Django路径配置实现过程解析
Nov 05 Python
你喜欢篮球吗?Python实现篮球游戏
Jun 11 Python
Python的爬虫框架scrapy用21行代码写一个爬虫
Apr 24 #Python
fastcgi文件读取漏洞之python扫描脚本
Apr 23 #Python
批量获取及验证HTTP代理的Python脚本
Apr 23 #Python
深入理解python中的select模块
Apr 23 #Python
Python3如何解决字符编码问题详解
Apr 23 #Python
Python制作刷网页流量工具
Apr 23 #Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 #Python
You might like
MySQL数据库转移,access,sql server 转 MySQL 的图文教程
2007/09/02 PHP
PHP循环结构实例讲解
2014/02/10 PHP
PDO防注入原理分析以及使用PDO的注意事项总结
2014/10/23 PHP
PHP入门教程之PHP操作MySQL的方法分析
2016/09/11 PHP
解决php 处理 form 表单提交多个 name 属性值相同的 input 标签问题
2017/05/11 PHP
使用XHProf查找PHP性能瓶颈的实例
2017/12/13 PHP
邮箱下拉自动填充选择示例代码附图
2014/04/03 Javascript
教你用AngularJS框架一行JS代码实现控件验证效果
2014/06/23 Javascript
详解js图片轮播效果实现原理
2015/12/17 Javascript
jQuery form插件的使用之处理server返回的JSON, XML,HTML数据
2016/01/26 Javascript
React学习笔记之列表渲染示例详解
2017/08/22 Javascript
原生js实现简单的模态框示例
2017/09/08 Javascript
vue组件(全局,局部,动态加载组件)
2018/09/02 Javascript
基于Vue2实现简易的省市区县三级联动组件效果
2018/11/05 Javascript
深入解析ES6中的promise
2018/11/08 Javascript
Centos7 安装Node.js10以上版本的方法步骤
2019/10/15 Javascript
JavaScript console的使用方法实例分析
2020/04/28 Javascript
JS forEach跳出循环2种实现方法
2020/06/24 Javascript
Python中str.join()简单用法示例
2018/03/20 Python
详谈套接字中SO_REUSEPORT和SO_REUSEADDR的区别
2018/04/28 Python
python re模块的高级用法详解
2018/06/06 Python
为什么从Python 3.6开始字典有序并效率更高
2019/07/15 Python
使用PyCharm进行远程开发和调试的实现
2019/11/04 Python
python函数不定长参数使用方法解析
2019/12/14 Python
Python爬虫工具requests-html使用解析
2020/04/29 Python
利用python下载scihub成文献为PDF操作
2020/07/09 Python
美国当红的名品折扣网:Gilt Groupe
2016/08/15 全球购物
美国儿童运动鞋和服装零售商:Kids Foot Locker
2017/08/05 全球购物
Bluebella美国官网:英国性感内衣品牌
2018/10/04 全球购物
投资合作协议书
2014/04/17 职场文书
大学英语演讲稿范文
2014/04/24 职场文书
后备干部培训方案
2014/05/22 职场文书
民事调解协议书
2016/03/21 职场文书
PHP新手指南
2021/04/01 PHP
深入解析Apache Hudi内核文件标记机制
2022/03/31 Servers
mysql拆分字符串作为查询条件的示例代码
2022/07/07 MySQL