python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
给Python初学者的一些编程技巧
Apr 03 Python
python实现的简单猜数字游戏
Apr 04 Python
使用Python下载歌词并嵌入歌曲文件中的实现代码
Nov 13 Python
Python实现将json文件中向量写入Excel的方法
Mar 26 Python
python网络应用开发知识点浅析
May 28 Python
使用Flask-Cache缓存实现给Flask提速的方法详解
Jun 11 Python
python卸载后再次安装遇到的问题解决
Jul 10 Python
5行Python代码实现图像分割的步骤详解
May 25 Python
Python OpenCV实现测量图片物体宽度
May 27 Python
python线程池如何使用
May 28 Python
如何用python开发Zeroc Ice应用
Jan 29 Python
python机器学习Github已达8.9Kstars模型解释器LIME
Nov 23 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
PHP+AJAX实现无刷新注册(带用户名实时检测)
2007/01/02 PHP
php数组函数序列 之shuffle()和array_rand() 随机函数使用介绍
2011/10/29 PHP
Yii框架数据模型的验证规则rules()被执行的方法
2016/12/02 PHP
PHP设计模式之模板方法模式实例浅析
2018/12/20 PHP
神奇的代码 通杀各种网站-可随意修改复制页面内容
2008/07/17 Javascript
jquery text,radio,checkbox,select操作实现代码
2009/07/09 Javascript
express的中间件cookieParser详解
2014/12/04 Javascript
jQuery的context属性用法实例
2014/12/27 Javascript
JavaScript判断浏览器类型的方法
2015/02/10 Javascript
js实现文本框输入文字个数限制代码
2015/12/25 Javascript
Kindeditor在线文本编辑器如何过滤HTML
2016/04/14 Javascript
javascript 缓冲运动框架的实现
2017/09/29 Javascript
vue 组件的封装之基于axios的ajax请求方法
2018/08/11 Javascript
iview tabs 顶部导航栏和模块切换栏的示例代码
2019/03/04 Javascript
react同构实践之实现自己的同构模板
2019/03/13 Javascript
[02:27]2014DOTA2国际邀请赛 VG赛后采访:更大的挑战在等着我们
2014/07/13 DOTA
Python多线程编程(八):使用Event实现线程间通信
2015/04/05 Python
Python获取邮件地址的方法
2015/07/10 Python
浅谈python socket函数中,send与sendall的区别与使用方法
2017/05/09 Python
Python使用matplotlib和pandas实现的画图操作【经典示例】
2018/06/13 Python
深度辨析Python的eval()与exec()的方法
2019/03/26 Python
python 解决flask uwsgi 获取不到全局变量的问题
2019/12/22 Python
简单了解python字符串前面加r,u的含义
2019/12/26 Python
Python 3.8 新功能来一波(大部分人都不知道)
2020/03/11 Python
Python库skimage绘制二值图像代码实例
2020/04/10 Python
CSS3对背景图片的裁剪及尺寸和位置的设定方法
2016/03/07 HTML / CSS
大学生预备党员自我评价分享
2013/11/16 职场文书
给医务人员表扬信
2014/01/12 职场文书
学校党的群众路线教育实践活动总结报告
2014/07/03 职场文书
医德医风自我评价
2014/09/19 职场文书
2015年端午节国旗下演讲稿
2015/03/19 职场文书
法制主题班会教案
2015/08/13 职场文书
送给火锅店的创意营销方案!
2019/07/08 职场文书
详解RedisTemplate下Redis分布式锁引发的系列问题
2021/04/27 Redis
JS Canvas接口和动画效果大全
2021/04/29 Javascript
MySQL8.0升级的踩坑历险记
2021/11/01 MySQL