python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
举例讲解如何在Python编程中进行迭代和遍历
Jan 19 Python
python实现批量监控网站
Sep 09 Python
python与C互相调用的方法详解
Jul 14 Python
Python numpy实现二维数组和一维数组拼接的方法
Jun 05 Python
对python 合并 累加两个dict的实例详解
Jan 21 Python
python中必要的名词解释
Nov 20 Python
python爬虫模拟浏览器访问-User-Agent过程解析
Dec 28 Python
python matplotlib imshow热图坐标替换/映射实例
Mar 14 Python
Python 处理日期时间的Arrow库使用
Aug 18 Python
使用Python绘制台风轨迹图的示例代码
Sep 21 Python
Django程序的优化技巧
Apr 29 Python
python中pandas对多列进行分组统计的实现
Jun 18 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
php 保留小数点
2009/04/21 PHP
FirePHP 推荐一款PHP调试工具
2011/04/23 PHP
php读取csv文件后,uft8 bom导致在页面上显示出现问题的解决方法
2013/08/10 PHP
PHP使用fopen与file_get_contents读取文件实例分享
2016/03/04 PHP
php表单文件iframe异步上传实例讲解
2017/07/26 PHP
获取客户端网卡MAC地址和IP地址实现JS代码
2013/03/17 Javascript
jQuery实现自动与手动切换的滚动新闻特效代码分享
2015/08/27 Javascript
JavaScript操作URL的相关内容集锦
2015/10/29 Javascript
基于jQuery1.9版本如何判断浏览器版本类型
2016/01/12 Javascript
nodejs 的 session 简单使用
2016/06/06 NodeJs
jQuery加载及解析XML文件的方法实例分析
2017/01/22 Javascript
BootStrap select2 动态改变值的方法
2017/02/10 Javascript
AngularJS之页面跳转Route实例代码
2017/03/10 Javascript
JavaScript实现换肤功能
2017/09/15 Javascript
JS获取当前地理位置的方法
2017/10/25 Javascript
使用sessionStorage解决vuex在页面刷新后数据被清除的问题
2018/04/13 Javascript
JSONP原理及应用实例详解
2018/09/13 Javascript
jQuery实现高度灵活的表单验证功能示例【无UI】
2020/04/30 jQuery
Javascript基于OOP实实现探测器功能代码实例
2020/08/26 Javascript
python和shell实现的校验IP地址合法性脚本分享
2014/10/23 Python
Python使用multiprocessing创建进程的方法
2015/06/04 Python
python获取元素在数组中索引号的方法
2015/07/15 Python
python脚本监控docker容器
2016/04/27 Python
python的socket编程入门
2018/01/29 Python
利用anaconda保证64位和32位的python共存
2021/03/09 Python
基于Python+QT的gui程序开发实现
2020/07/03 Python
pytorch使用horovod多gpu训练的实现
2020/09/09 Python
浅谈anaconda python 版本对应关系
2020/10/07 Python
pip/anaconda修改镜像源,加快python模块安装速度的操作
2021/03/04 Python
信息与计算科学专业推荐信
2014/02/23 职场文书
爱护草坪标语
2014/06/24 职场文书
爱护公物演讲稿
2014/09/09 职场文书
小学母亲节活动总结
2015/02/10 职场文书
2015小学教师德育工作总结
2015/05/12 职场文书
2016年习主席讲话学习心得体会
2016/01/20 职场文书
分享7个 Python 实战项目练习
2022/03/03 Python