python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python赋值操作方法分享
Mar 23 Python
修改python plot折线图的坐标轴刻度方法
Dec 13 Python
Python单元测试unittest的具体使用示例
Dec 17 Python
用xpath获取指定标签下的所有text的实例
Jan 02 Python
Python3利用print输出带颜色的彩色字体示例代码
Apr 08 Python
使用Python实现跳一跳自动跳跃功能
Jul 10 Python
python 列表推导式使用详解
Aug 29 Python
pycharm 2019 最新激活方式(pycharm破解、激活)
Sep 22 Python
python 解决tqdm模块不能单行显示的问题
Feb 19 Python
python针对Oracle常见查询操作实例分析
Apr 30 Python
Pandas缺失值2种处理方式代码实例
Jun 13 Python
Python直接赋值及深浅拷贝原理详解
Sep 05 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
php 无法载入mysql扩展
2010/03/12 PHP
php 将字符串按大写字母分隔成字符串数组
2010/04/30 PHP
使用PHP curl模拟浏览器抓取网站信息
2013/10/28 PHP
解决Laravel自定义类引入和命名空间的问题
2019/10/15 PHP
laravel返回统一格式错误码问题
2019/11/04 PHP
Mozilla中显示textarea中选择的文字
2006/09/07 Javascript
Js callBack 返回前一页的js方法
2008/11/30 Javascript
一些老手都不一定知道的JavaScript技巧
2014/05/06 Javascript
JS实现控制表格只显示行边框或者只显示列边框的方法
2015/03/31 Javascript
jquery.form.js实现将form提交转为ajax方式提交的方法
2015/04/07 Javascript
jQuery中fadein与fadeout方法用法示例
2016/09/16 Javascript
jQuery+ajax的资源回收处理机制分析
2017/01/07 Javascript
使用vue.js编写蓝色拼图小游戏
2017/03/17 Javascript
微信小程序组件之srcoll-view的详解
2017/10/19 Javascript
js动态引入的四种方法
2018/05/05 Javascript
Vue.js 使用v-cloak后仍显示变量的解决方法
2018/11/19 Javascript
9102年webpack4搭建vue项目的方法步骤
2019/02/20 Javascript
小程序点击图片实现png转jpg
2019/10/22 Javascript
JS通用方法触发点击事件代码实例
2020/02/17 Javascript
前端深入理解Typescript泛型概念
2020/03/09 Javascript
原生JS利用transform实现banner的无限滚动示例代码
2020/06/15 Javascript
[02:23]1个至宝=115个英雄特效 最“绿”至宝拉比克“魔导师密钥”登场
2018/12/29 DOTA
python使用paramiko实现远程拷贝文件的方法
2016/04/18 Python
python 对类的成员函数开启线程的方法
2019/01/22 Python
Python爬虫爬取Bilibili弹幕过程解析
2019/10/10 Python
Python3列表List入门知识附实例
2020/02/09 Python
使用卷积神经网络(CNN)做人脸识别的示例代码
2020/03/27 Python
Python %r和%s区别代码实例解析
2020/04/03 Python
Python定时从Mysql提取数据存入Redis的实现
2020/05/03 Python
Python基于pandas爬取网页表格数据
2020/05/11 Python
Python3实现建造者模式的示例代码
2020/06/28 Python
美国顶级户外凉鞋品牌:Chacos
2017/03/27 全球购物
纽约手袋品牌:KARA
2018/03/18 全球购物
xxx同志考察材料
2014/02/07 职场文书
交通安全标语
2014/06/06 职场文书
Python实现提取PDF简历信息并存入Excel
2022/04/02 Python