python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python实现统计代码行数的方法
May 22 Python
Python字符串匹配算法KMP实例
Jul 18 Python
Python自定义主从分布式架构实例分析
Sep 19 Python
Python有序查找算法之二分法实例分析
Dec 11 Python
windows 下python+numpy安装实用教程
Dec 23 Python
简单谈谈python中的lambda表达式
Jan 19 Python
python解释器spython使用及原理解析
Aug 24 Python
Python绘制二维曲线的日常应用详解
Dec 04 Python
已安装tensorflow-gpu,但keras无法使用GPU加速的解决
Feb 07 Python
Python接口测试结果集实现封装比较
May 01 Python
PyCharm2020最新激活码+激活码补丁(亲测最新版PyCharm2020.2激活成功)
Nov 25 Python
Python必备技巧之字符数据操作详解
Mar 23 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
层叠菜单的动态生成
2006/10/09 PHP
mysql 查询指定日期时间内sql语句实现原理与代码
2012/12/16 PHP
关于PHP二进制流 逐bit的低位在前算法(详解)
2013/06/13 PHP
PHP实现的XXTEA加密解密算法示例
2018/08/28 PHP
Laravel如何同时连接多个数据库详解
2019/08/13 PHP
php 比较获取两个数组相同和不同元素的例子(交集和差集)
2019/10/18 PHP
基于Laravel 多个中间件的执行顺序详解
2019/10/21 PHP
js修改table中Td的值(定义td的双击事件)
2013/01/10 Javascript
ext combobox动态加载数据库数据(附前后台)
2014/06/17 Javascript
深入解读JavaScript中的Hoisting机制
2015/08/12 Javascript
JavaScript统计字符串中每个字符出现次数完整实例
2016/01/28 Javascript
vue.js的手脚架vue-cli项目搭建的步骤
2017/08/30 Javascript
简单谈谈js的数据类型
2017/09/25 Javascript
vue中配置mint-ui报css错误问题的解决方法
2017/10/11 Javascript
解决eclipse中没有js代码提示的问题
2018/10/10 Javascript
详解Vue webapp项目通过HBulider打包原生APP(vue+webpack+HBulider)
2019/02/02 Javascript
详解vue-cli+es6引入es5写的js(两种方法)
2019/04/19 Javascript
JavaScript中工厂函数与构造函数示例详解
2019/05/06 Javascript
Vue之beforeEach非登录不能访问的实现(代码亲测)
2019/07/18 Javascript
Typescript的三种运行方式(小结)
2019/09/18 Javascript
node 标准输入流和输出流代码实例
2019/09/19 Javascript
[03:54]Ehome出征西雅图 回顾2016国际邀请赛晋级之路
2016/08/02 DOTA
在Python中进行自动化单元测试的教程
2015/04/15 Python
Python利用正则表达式匹配并截取指定子串及去重的方法
2015/07/30 Python
Python 比较两个数组的元素的异同方法
2017/08/17 Python
win10下python3.5.2和tensorflow安装环境搭建教程
2018/09/19 Python
PyCharm更改字体和界面样式的方法步骤
2019/09/27 Python
python爬虫筛选工作实例讲解
2020/11/23 Python
jupyter notebook更换皮肤主题的实现
2021/01/07 Python
CSS实现定位元素居中的方法
2015/06/23 HTML / CSS
HTML5+CSS3实现机器猫
2016/10/17 HTML / CSS
美国最大的户外装备和服装购物网站:Backcountry
2019/10/15 全球购物
校班主任推荐信范文
2013/12/03 职场文书
促销活动计划书
2014/05/02 职场文书
三方协议书
2015/01/27 职场文书
Redis监控工具RedisInsight安装与使用
2022/03/21 Redis