编程 Python

Python 通过正则表达式快速获取电影的下载地址

Posted in Python onAugust 17, 2020

在爬取网页信息时，如果在HTML代码中通过获取标签的方式来提取电影的下载地址时，不仅要编写比较多的代码，还需要不断的确认每一层的标签是否正确，这样的操作无疑是烦琐的。如下图所示。那么通过什么方式既可以减少代码量，又可以很简单的提取指定标签的内容呢？本文将实现通过正则表达式快速获取电影的下载地址。如果对正则表达式不熟悉的读者，点击此处学习正则表达式。

在爬取网页信息的任务中，可以使用正则表达式的方式快速的提取某个标签内的指定信息，以爬取电影的下载地址为例。本案例需要注意编码格式的问题，单击鼠标右键，如图所示查看网页编码：

Python 通过正则表达式快速获取电影的下载地址

代码如下：

import re
import requests


def get_movies(url):
 # 构造请求头
 headers = {
  "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/53"
      "7.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36"
 }
 response = requests.get(url, headers=headers) # 发送请求
 response.encoding = "gb2312" # 设置编码方式
 # 判断请求是否成功 根据状态码是否等于200来判断
 if response.status_code == 200:
  # 获取每个电影详情页地址，通过正则表达式提取电影详情页地址
  # <a href="/html/gndy/dyzz/20200411/59903.html" rel="external nofollow" class="ulink">2020年动作《绝地战警：疾速追击》BD中英双字幕</a>
  movies_info = re.findall(r'<a href="(.*?)" rel="external nofollow" class="ulink">', response.text) # 返回符合表达式规则的数据列表
  print(len(movies_info))
  for url in movies_info: # 循环每个电影的详情页地址
   info_url = "https://www.ygdy8.net" + url # 拼接完整地址
   # 对电影详情页发送请求
   movies_info_response = requests.get(info_url, headers=headers)
   movies_info_response.encoding = "gb2312" # 设置编码方式
   # 通过表达式匹配电影的下载地址
   download_url = re.findall(r'<a href=".*?" rel="external nofollow" >(.*?)</a></td>', movies_info_response.text)
   print(download_url)


if __name__ == '__main__':
 get_movies("https://www.ygdy8.net/html/gndy/dyzz/index.html")

运行结果如下：

['ftp://ygdy8:ygdy8@yg39.dydytt.net:8014/阳光电影www.ygdy8.com.名字之歌.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg90.dydytt.net:6015/阳光电影www.ygdy8.com.我仍然相信.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:8018/阳光电影www.ygdy8.com.阿肯色.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:4028/阳光电影www.ygdy8.com.惊天营救.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg90.dydytt.net:8067/阳光电影www.ygdy8.com.狩猎的时间.BD.1080p.韩语中字.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:7018/阳光电影www.ygdy8.com.7号房的礼物.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:8017/阳光电影www.ygdy8.com.格蕾特和韩塞尔.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:3028/阳光电影www.ygdy8.com.看不见的女人.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg90.dydytt.net:7067/阳光电影www.ygdy8.com.我们永不言弃.HD.1080p.国语中字.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:4026/阳光电影www.ygdy8.com.军人的妻子.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg90.dydytt.net:6014/阳光电影www.ygdy8.com.匹诺曹.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:4025/阳光电影www.ygdy8.com.叶问4：完结篇.BD.1080p.国粤双语中字.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:3024/阳光电影www.ygdy8.com.节奏组.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:8013/阳光电影www.ygdy8.com.江湖儿女.BD.1080p.国语中字.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:3026/阳光电影www.ygdy8.com.琼斯先生.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:7013/阳光电影www.ygdy8.com.地球最后的夜晚.BD.1080p.国语中字.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:3023/阳光电影www.ygdy8.com.梦幻岛.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:4023/阳光电影www.ygdy8.com.拧紧.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:4026/阳光电影www.ygdy8.com.悲惨世界.BD.1080p.法语中字.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:4022/阳光电影www.ygdy8.com.真人快打传奇：蝎子的复仇.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg18.dydytt.net:7016/阳光电影www.ygdy8.com.我的间谍.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:3021/阳光电影www.ygdy8.com.从不，很少，有时，总是.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:4025/阳光电影www.ygdy8.com.绝地战警：疾速追击.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg39.dydytt.net:3020/阳光电影www.ygdy8.com.绅士们.BD.1080p.中英双字幕.mkv']
['ftp://ygdy8:ygdy8@yg90.dydytt.net:8065/阳光电影www.ygdy8.com.二分之一的魔法.BD.1080p.中英双字幕.mkv']
1

笔者在这里声明，笔者写文章只是为了 学习交流，以及让更多学习Python基础的读者少走一些弯路，节省时间，并不用做其他用途，如有侵权，联系删除即可。

到此这篇关于Python 通过正则表达式快速获取电影的下载地址的文章就介绍到这了,更多相关Python 正则表达式下载地址内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python 通过正则表达式快速获取电影的下载地址

- Author -

Amo Xiang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用Python判断IP地址合法性的方法实例

Mar 13 Python

Python的Tornado框架异步编程入门实例

Apr 24 Python

python脚本内运行linux命令的方法

Jul 02 Python

用ReactJS和Python的Flask框架编写留言板的代码示例

Dec 19 Python

python中根据字符串调用函数的实现方法

Jun 12 Python

Python向日志输出中添加上下文信息

May 24 Python

python dataframe向下向上填充,fillna和ffill的方法

Nov 28 Python

python矩阵/字典实现最短路径算法

Jan 17 Python

快速解决jupyter notebook启动需要密码的问题

Apr 21 Python

Python基于DB-API操作MySQL数据库过程解析

Apr 23 Python

Keras设定GPU使用内存大小方式(Tensorflow backend)

May 22 Python

哪些是python中web开发框架

Jun 17 Python

Python 程序员必须掌握的日志记录

Aug 17 #Python

Python使用urlretrieve实现直接远程下载图片的示例代码

Aug 17 #Python

Python 如何查找特定类型文件

Aug 17 #Python

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

Aug 17 #Python

无需压缩软件，用python帮你操作压缩包

Aug 17 #Python

用Python制作mini翻译器的实现示例

Aug 17 #Python

PyCharm vs VSCode，作为python开发者，你更倾向哪种IDE呢？

Aug 17 #Python

You might like

php将12小时制转换成24小时制的方法

2015/03/31 PHP

php传值方式和ajax的验证功能

2017/03/27 PHP

javascript 函数速查表

2010/02/07 Javascript

火狐下input焦点无法重复获取问题的解决方法

2014/06/16 Javascript

JavaScript和jquery获取父级元素、子级元素、兄弟元素的方法

2016/06/05 Javascript

ui组件之input多选下拉实现方法（带有搜索功能）

2016/07/14 Javascript

JS控制FileUpload的上传文件类型实例代码

2016/10/07 Javascript

node.js中fs.stat与fs.fstat的区别详解

2017/06/01 Javascript

详解vue中引入stylus及报错解决方法

2017/09/22 Javascript

json字符串传到前台input的方法

2018/08/06 Javascript

使用jquery模拟a标签的click事件无法实现跳转的解决

2018/12/04 jQuery

js实现移动端轮播图

2020/12/21 Javascript

用node开发并发布一个cli工具的方法步骤

2019/01/03 Javascript

小程序的上传文件接口的注意要点解析

2019/09/17 Javascript

如何基于JS截获动态代码

2019/12/25 Javascript

vue项目中在可编辑div光标位置插入内容的实现代码

2020/01/07 Javascript

vant实现购物车功能

2020/06/29 Javascript

代码分析Python地图坐标转换

2018/02/08 Python

使用Python制作简单的小程序IP查看器功能

2019/04/16 Python

python绘图模块matplotlib示例详解

2019/07/26 Python

浅谈PyTorch的可重复性问题(如何使实验结果可复现)

2020/02/20 Python

解决python脚本中error: unrecognized arguments: True错误

2020/04/20 Python

Python 实现集合Set的示例

2020/12/21 Python

python链表类中获取元素实例方法

2021/02/23 Python

世界上最大的在线汽车租赁预订平台：Rentalcars.com（支持中文）

2018/10/12 全球购物

证婚人经典证婚词

2014/01/09 职场文书

金融行业职业生涯规划范文

2014/01/17 职场文书

粗加工管理制度

2014/02/04 职场文书

教师专业自荐书范文

2014/02/10 职场文书

贷款担保申请书

2014/05/20 职场文书

幼儿园运动会口号

2014/06/07 职场文书

运动会宣传口号

2014/06/09 职场文书

服务理念标语

2014/06/18 职场文书

python实现层次聚类的方法

2021/11/01 Python

angular异步验证器防抖实例详解

2022/03/31 Javascript

Typescript类型系统FLOW静态检查基本规范

2022/05/25 Javascript