python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中的下划线详解
Jun 24 Python
Python中音频处理库pydub的使用教程
Jun 07 Python
Python线性方程组求解运算示例
Jan 17 Python
pyQT5 实现窗体之间传值的示例
Jun 20 Python
python3的数据类型及数据类型转换实例详解
Aug 20 Python
Python多线程的退出控制实现
Aug 10 Python
Pycharm常用快捷键总结及配置方法
Nov 14 Python
Python爬虫逆向分析某云音乐加密参数的实例分析
Dec 04 Python
Python3+Django get/post请求实现教程详解
Feb 16 Python
Python实战之疫苗研发情况可视化
May 18 Python
教你怎么用python selenium实现自动化测试
May 27 Python
Python+Selenium实现抖音、快手、B站、小红书、微视、百度好看视频、西瓜视频、微信视频号、搜狐视频、一点号、大风号、趣头条等短视频自动发布
Apr 13 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
php 应用程序安全防范技术研究
2009/09/25 PHP
php curl 登录163邮箱并抓取邮箱好友列表的代码(经测试)
2011/04/07 PHP
PHP正则表达式之定界符和原子介绍
2012/10/05 PHP
微信支付开发教程(一)微信支付URL配置
2014/05/28 PHP
JavaScript高级程序设计(第3版)学习笔记4 js运算符和操作符
2012/10/11 Javascript
JavaScript运行机制之事件循环(Event Loop)详解
2014/10/10 Javascript
js的touch事件的实际引用
2014/10/13 Javascript
jquery插件推荐浏览器嗅探userAgent
2014/11/09 Javascript
JavaScript中各种引用类型的常用操作方法小结
2016/05/05 Javascript
JS模态窗口返回值兼容问题的完美解决方法
2016/05/28 Javascript
AngularJS入门教程之迭代器过滤详解
2016/08/18 Javascript
AngularJS 打开新的标签页实现代码
2017/09/07 Javascript
vue项目中公用footer组件底部位置的适配问题
2018/05/10 Javascript
原生js实现form表单序列化的方法
2018/08/02 Javascript
浅谈React之状态(State)
2018/09/19 Javascript
vue基础之使用get、post、jsonp实现交互功能示例
2019/03/12 Javascript
ES6入门教程之Array.from()方法
2019/03/23 Javascript
Vue编写可显示周和月模式的日历 Vue自定义日历内容的显示
2019/06/26 Javascript
使用VUE实现在table中文字信息超过5个隐藏鼠标移到时弹窗显示全部
2019/09/16 Javascript
angular组件间传值测试的方法详解
2020/05/07 Javascript
详细分析vue响应式原理
2020/06/22 Javascript
浅谈python中的__init__、__new__和__call__方法
2017/07/18 Python
python+selenium+autoit实现文件上传功能
2017/08/23 Python
解决Pyinstaller打包软件失败的一个坑
2021/03/04 Python
迷你分体式空调:SoGoodToBuy
2018/08/07 全球购物
英国名牌服装购物网站:OD’s Designer
2019/09/02 全球购物
戴尔新加坡官网:Dell Singapore
2020/12/13 全球购物
物业管理公司实习生自我鉴定
2013/09/19 职场文书
医学院学生的自我评价分享
2013/11/19 职场文书
家长会标语
2014/06/24 职场文书
怎样写离婚协议书
2014/09/10 职场文书
医生个人自我剖析材料
2014/10/08 职场文书
2020年基层司法所建设情况调研报告
2019/11/30 职场文书
导游词之任弼时故居
2020/01/07 职场文书
vue.js 使用原生js实现轮播图
2022/04/26 Vue.js
pandas时间序列之pd.to_datetime()的实现
2022/06/16 Python