编程 Python

python爬取”顶点小说网“《纯阳剑尊》的示例代码

Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章？（1-802）')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成！'.format(num))

if __name__ == '__main__':
  main()

爬取结果：

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容，更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章！

python爬取”顶点小说网“《纯阳剑尊》的示例代码

- Author -

Gg、

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现统计代码行数的方法

May 22 Python

Python字符串匹配算法KMP实例

Jul 18 Python

Python自定义主从分布式架构实例分析

Sep 19 Python

Python有序查找算法之二分法实例分析

Dec 11 Python

windows 下python+numpy安装实用教程

Dec 23 Python

简单谈谈python中的lambda表达式

Jan 19 Python

python解释器spython使用及原理解析

Aug 24 Python

Python绘制二维曲线的日常应用详解

Dec 04 Python

已安装tensorflow-gpu,但keras无法使用GPU加速的解决

Feb 07 Python

Python接口测试结果集实现封装比较

May 01 Python

PyCharm2020最新激活码+激活码补丁(亲测最新版PyCharm2020.2激活成功)

Nov 25 Python

Python必备技巧之字符数据操作详解

Mar 23 Python

Python使用内置函数setattr设置对象的属性值

Oct 16 #Python

python pymysql库的常用操作

Oct 16 #Python

Python基于callable函数检测对象是否可被调用

Oct 16 #Python

python collections模块的使用

Oct 16 #Python

python 如何使用find和find_all爬虫、找文本的实现

Oct 16 #Python

Django实现随机图形验证码的示例

Oct 15 #Python

如何使用Python自动生成报表并以邮件发送

Oct 15 #Python

You might like

层叠菜单的动态生成

2006/10/09 PHP

mysql 查询指定日期时间内sql语句实现原理与代码

2012/12/16 PHP

关于PHP二进制流逐bit的低位在前算法(详解)

2013/06/13 PHP

PHP实现的XXTEA加密解密算法示例

2018/08/28 PHP

Laravel如何同时连接多个数据库详解

2019/08/13 PHP

php 比较获取两个数组相同和不同元素的例子(交集和差集)

2019/10/18 PHP

基于Laravel 多个中间件的执行顺序详解

2019/10/21 PHP

js修改table中Td的值(定义td的双击事件)

2013/01/10 Javascript

ext combobox动态加载数据库数据(附前后台)

2014/06/17 Javascript

深入解读JavaScript中的Hoisting机制

2015/08/12 Javascript

JavaScript统计字符串中每个字符出现次数完整实例

2016/01/28 Javascript

vue.js的手脚架vue-cli项目搭建的步骤

2017/08/30 Javascript

简单谈谈js的数据类型

2017/09/25 Javascript

vue中配置mint-ui报css错误问题的解决方法

2017/10/11 Javascript

解决eclipse中没有js代码提示的问题

2018/10/10 Javascript

详解Vue webapp项目通过HBulider打包原生APP（vue+webpack+HBulider）

2019/02/02 Javascript

详解vue-cli+es6引入es5写的js(两种方法)

2019/04/19 Javascript

JavaScript中工厂函数与构造函数示例详解

2019/05/06 Javascript

Vue之beforeEach非登录不能访问的实现（代码亲测）

2019/07/18 Javascript

Typescript的三种运行方式(小结)

2019/09/18 Javascript

node 标准输入流和输出流代码实例

2019/09/19 Javascript

[03:54]Ehome出征西雅图回顾2016国际邀请赛晋级之路

2016/08/02 DOTA

在Python中进行自动化单元测试的教程

2015/04/15 Python

Python利用正则表达式匹配并截取指定子串及去重的方法

2015/07/30 Python

Python 比较两个数组的元素的异同方法

2017/08/17 Python

win10下python3.5.2和tensorflow安装环境搭建教程

2018/09/19 Python

PyCharm更改字体和界面样式的方法步骤

2019/09/27 Python

python爬虫筛选工作实例讲解

2020/11/23 Python

jupyter notebook更换皮肤主题的实现

2021/01/07 Python

CSS实现定位元素居中的方法

2015/06/23 HTML / CSS

HTML5+CSS3实现机器猫

2016/10/17 HTML / CSS

美国最大的户外装备和服装购物网站：Backcountry

2019/10/15 全球购物

校班主任推荐信范文

2013/12/03 职场文书

促销活动计划书

2014/05/02 职场文书

三方协议书

2015/01/27 职场文书

Redis监控工具RedisInsight安装与使用

2022/03/21 Redis