python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python字符串连接方式汇总
Aug 21 Python
win与linux系统中python requests 安装
Dec 04 Python
Python通过Django实现用户注册和邮箱验证功能代码
Dec 11 Python
python实现百万答题自动百度搜索答案
Jan 16 Python
Python自定义线程池实现方法分析
Feb 07 Python
PHP实现发送和接收JSON请求
Jun 07 Python
Python爬取数据并写入MySQL数据库的实例
Jun 21 Python
关于Python中的向量相加和numpy中的向量相加效率对比
Aug 26 Python
JupyterNotebook设置Python环境的方法步骤
Dec 03 Python
python梯度下降算法的实现
Feb 24 Python
python中有帮助函数吗
Jun 19 Python
Python中的min及返回最小值索引的操作
May 10 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
php图片上传存储源码并且可以预览
2011/08/26 PHP
php加速器eAccelerator的配置参数、API详解
2014/05/05 PHP
PHP内置过滤器FILTER使用实例
2014/06/25 PHP
浅谈PHP中foreach/in_array的使用
2015/11/02 PHP
PHP Cookie学习笔记
2016/08/23 PHP
PHP简单实现记录网站访问量功能示例
2018/06/06 PHP
PHP 构造函数和析构函数原理与用法分析
2020/04/21 PHP
js 数组实现一个类似ruby的迭代器
2009/10/27 Javascript
jQuery Tools tab使用介绍
2012/07/14 Javascript
append和appendTo的区别以及appendChild用法
2013/12/24 Javascript
jQuery中contents()方法用法实例
2015/01/08 Javascript
JavaScript学习笔记之JS函数
2015/01/22 Javascript
IE7浏览器窗口大小改变事件执行多次bug及IE6/IE7/IE8下resize问题
2015/08/21 Javascript
JS基于Mootools实现的个性菜单效果代码
2015/10/21 Javascript
jQuery实现文本框邮箱输入自动补全效果
2015/11/17 Javascript
简单的jQuery banner图片轮播实例代码
2016/03/04 Javascript
jQuery ajax请求返回list数据动态生成input标签,并把list数据赋值到input标签
2016/03/29 Javascript
jQuery 中的 DOM 操作
2016/04/26 Javascript
bootstrap table 表格中增加下拉菜单末行出现滚动条的快速解决方法
2017/01/05 Javascript
JS简单实现查看文档创建日期、修改日期和文档大小的方法示例
2018/04/08 Javascript
jQuery实现菜单的显示和隐藏功能示例
2018/07/24 jQuery
js实现删除li标签一行内容
2019/04/16 Javascript
ES6知识点整理之对象解构赋值应用示例
2019/04/17 Javascript
Python中的面向对象编程详解(上)
2015/04/13 Python
Python实现定时监测网站运行状态的示例代码
2020/09/30 Python
python爬虫搭配起Bilibili唧唧的流程分析
2020/12/01 Python
实例讲解HTML5的meta标签的一些应用
2015/12/08 HTML / CSS
美国体育用品商店:Rally House(NCAA、NFL、MLB、NBA、NHL和MLS)
2018/01/03 全球购物
巴西补充剂和维生素购物网站:Natue
2019/06/17 全球购物
教师党员思想汇报
2014/01/06 职场文书
研讨会主持词
2014/04/02 职场文书
篮球比赛拉拉队口号
2014/06/10 职场文书
财务工作犯错检讨书
2014/10/07 职场文书
2014年小学数学教师工作总结
2014/12/03 职场文书
2016年六一儿童节开幕词
2016/03/04 职场文书
python opencv检测直线 cv2.HoughLinesP的实现
2021/06/18 Python