编程 Python

使用 Python 清理收藏夹里已失效的网站

Posted in Python onDecember 03, 2019

失效的书签们

我们日常浏览网站的时候，时不时会遇到些新奇的东西（ 你懂的.jpg ），于是我们就默默的点了个收藏或者加书签。然而当我们面对成百上千的书签和收藏夹的时候，总会头疼不已……

尤其是昨天还在更新的程序设计博客，今天就挂了永不更新。或者是昨天看的起劲的电影网站，今天直接404。失效页面这么多，每次我打开才知道失效了，并且需要手动删除，这能是一个程序员干的事情吗？

可是无论是Google浏览器还是国内浏览器，最多也就提供一个对于收藏夹的备份服务，那只能Python走起了。

使用 Python 清理收藏夹里已失效的网站

Python支持的收藏夹文件格式

对于收藏夹提供的支持很少，主要还是因为收藏夹藏在浏览器里面，我们只能手动导出htm文件进行管理

使用 Python 清理收藏夹里已失效的网站

内容比较简单，对前端没什么了解的我，也可以很明显看出其中的树形结构和内在逻辑。

固定格式网址固定格式页面名固定格式

很简单的想到了正则匹配，其中有两个子串。提取出来再挨个访问，看看哪个失效了，就删除，就能获得清理后的收藏夹了。

读取收藏夹文件

path = "C:\\Users\\XU\\Desktop"
fname = "bookmarks.html"
os.chdir(path)
bookmarks_f = open(fname, "r+" ,encoding='UTF-8')
booklists = bookmarks_f.readlines()
bookmarks_f.close()

因为对于前端的不熟悉，这个导出的收藏夹可以抽象的分成

结构代码
保存网页书签的关键代码

其中结构代码我们不能动，要原封不动的保留，而保存网页书签的关键代码，我们要提取内容并且进行判断保留和删除。

所以这里采用readlines函数，每行读取，单独判断。

正则匹配

pattern = r'href="(.*?)" rel="external nofollow" .*?>(.*?)</A>'
while len(booklists)> 0 :
bookmark = booklists.pop( 0 )
detail = re.search(pattern, bookmark)

如果是关键代码：提取出的子串在 detail.group(1) 和 detail.group(2) 里面

而如果是结构代码：detail == None

访问页面

import requests
r = requests. get (detail. group ( 1
),timeout=
500
)

编代码尝试之后发现会有这四种情况

r.status_code == requests.codes.ok
r.status_code==404
r.status_code!=404 && 无法访问 （可能是屏蔽爬虫，建议保留）
requests.exceptions.ConnectionError

类似知乎、简书基本都反爬了，所以简单的get还不能有效访问，细节不值得大费周章，直接保留就好。而error，直接用try抛出异常就好，不然程序会停止运行。

添加逻辑后：（代码可左右拖动）

while len ( booklists )>0:
= booklists.pop( 0 )
detail = re.search(pattern, bookmark)
if detail:
#print(detail.group(1) +"----"+ detail.group(2))
try :
#访问
r = requests. get (detail. group ( 1 ),timeout= 500 )
#如果可则添加
if r.status_code == requests.codes.ok:
new_lists.append(bookmark)
print( "ok------ 保留：" + detail. group ( 1 )+ "  " + detail. group ( 2 ))
else :
if (r.status_code== 404 ):
print( "不可访问 删除：" + detail. group ( 1 )+ "  " + detail. group ( 2 ) + '错误码 ' +str(r.status_code))
else :
print( "其他原因 保留：" + detail. group ( 1 )+ "  " + detail. group ( 2 ) + '错误码 ' +str(r.status_code))
new_lists.append(bookmark)
except:
print( "不可访问 删除：" + detail. group ( 1 )+ "  " + detail. group ( 2 ))
#new_lists.append(bookmark)
else : #没匹配到是结构语句
new_lists.append(bookmark)

程序执行情况

使用 Python 清理收藏夹里已失效的网站

导出htm

bookmarks_f = open ( 'new_' +fname, "w+" ,encoding= 'UTF-8' )
bookmarks_f.writelines(new_lists)
bookmarks_f.
close
()

导入浏览器

使用 Python 清理收藏夹里已失效的网站

实际应用于我的浏览器

使用 Python 清理收藏夹里已失效的网站

确实有很多电影网都失效了，通过Python能够一键清理其中无法访问的书签。人生苦短，P ython 的确可以让生活更高效~

总结

以上所述是小编给大家介绍的使用 Python 清理收藏夹里已失效的网站，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

使用 Python 清理收藏夹里已失效的网站

- Author -

Python开源平台

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Centos5.x下升级python到python2.7版本教程

Feb 14 Python

简单讲解Python中的字符串与字符串的输入输出

Mar 13 Python

python连接mysql实例分享

Oct 09 Python

Python 用Redis简单实现分布式爬虫的方法

Nov 23 Python

详解Python3.6的py文件打包生成exe

Jul 13 Python

python 实现语音聊天机器人的示例代码

Dec 02 Python

Django框架实现的普通登录案例【使用POST方法】

May 15 Python

如何在python中实现随机选择

Nov 02 Python

Python +Selenium解决图片验证码登录或注册问题(推荐)

Feb 09 Python

Python如何使用input函数获取输入

Aug 06 Python

Python 中 Shutil 模块详情

Nov 11 Python

PyCharm 配置SSH和SFTP连接远程服务器

May 11 Python

Python常用模块os.path之文件及路径操作方法

Dec 03 #Python

Python中顺序表原理与实现方法详解

Dec 03 #Python

python双向链表原理与实现方法详解

Dec 03 #Python

Python读取实时数据流示例

Dec 02 #Python

简单了解python元组tuple相关原理

Dec 02 #Python

python实现智能语音天气预报

Dec 02 #Python

Python:二维列表下标互换方式(矩阵转置)

Dec 02 #Python

You might like

漂亮但不安全的CTB

2006/10/09 PHP

PHP版本的选择5.2.17 5.3.27 5.3.28 5.4 5.5兼容性问题分析

2016/04/04 PHP

php array_key_exists() 与 isset() 的区别

2016/10/24 PHP

Yii2实现增删改查后留在当前页的方法详解

2017/01/13 PHP

PHP实现验证码校验功能

2017/11/16 PHP

PHP PDOStatement::debugDumpParams讲解

2019/01/30 PHP

php中字符串和整数比较的操作方法

2019/06/06 PHP

Laravel 实现Eloquent模型分组查询并返回每个分组的数量 groupBy()

2019/10/23 PHP

ExtJs中简单的登录界面制作方法

2010/08/19 Javascript

JQuery的Ajax跨域请求原理概述及实例

2013/04/26 Javascript

JS实现匀速运动的代码实例

2013/11/29 Javascript

jQuery子窗体取得父窗体元素的方法

2015/05/11 Javascript

浅析node连接数据库（express+mysql）

2015/11/30 Javascript

全面解析JavaScript中“&&”和“||”操作符(总结篇)

2016/07/18 Javascript

简单三步实现报表页面集成天气

2016/12/15 Javascript

如何学JavaScript？前辈的经验之谈

2016/12/28 Javascript

通过命令行创建vue项目的方法

2017/07/20 Javascript

JavaScript中的E-mail 地址格式验证

2018/03/28 Javascript

Vue中使用ElementUI使用第三方图标库iconfont的示例

2018/10/11 Javascript

vue a标签点击实现赋值方式

2020/09/07 Javascript

Antd-vue Table组件添加Click事件,实现点击某行数据教程

2020/11/17 Javascript

[02:39]DOTA2英雄基础教程天怒法师

2013/11/29 DOTA

Python高级应用实例对比：高效计算大文件中的最长行的长度

2014/06/08 Python

python实现DES加密解密方法实例详解

2015/06/30 Python

Python变量作用范围实例分析

2015/07/07 Python

Python网络爬虫出现乱码问题的解决方法

2017/01/05 Python

Python实现MySQL操作的方法小结【安装,连接,增删改查等】

2017/07/12 Python

浅谈用Python实现一个大数据搜索引擎

2017/11/28 Python

python调用外部程序的实操步骤

2019/03/04 Python

Python HTMLTestRunner如何下载生成报告

2020/09/04 Python

IE9下html5初试小刀

2010/09/21 HTML / CSS

阿根廷旅游网站：almundo阿根廷

2018/02/12 全球购物

丝芙兰意大利官方网站：Sephora.it

2019/12/13 全球购物

社会学专业求职信

2014/07/17 职场文书

清洁工岗位职责

2015/02/13 职场文书

SQLServer之常用函数总结详解

2021/08/30 SQL Server