python爬取”顶点小说网“《纯阳剑尊》的示例代码


Posted in Python onOctober 16, 2020

爬取”顶点小说网“《纯阳剑尊》

代码

import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
  like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

# 获得请求
def open_url(url):
  response = requests.get(url, headers=headers)
  response.encoding = response.apparent_encoding
  html = response.text
  return html

# 提取标题
def get_title(url):
  soup = BeautifulSoup(url, 'lxml')
  title_tag = soup.find('dd')
  title = '\n' + title_tag.h1.get_text() + '\n'
  return title

# 提取文本
def get_texts(url):
  soup2 = BeautifulSoup(url, 'lxml')
  text_tags = soup2.find_all('dd', id="contents")
  return text_tags

# 保存标题
def save_title(filename, title):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(title)

# 保存文本
def save_text(filename, text):
  with open(filename, 'a+', encoding='utf-8') as file:
    file.write(text)

# 主程序函数
def main():
  num = input('《纯阳剑尊》你想要下载第几章?(1-802)')
  num = int(num)
  number = 8184027 + num
  url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
  filename = '纯阳剑尊.txt'
  r = open_url(url)
  title = get_title(r)
  tags = get_texts(r)
  save_title(filename, title)
  for text_tag in tags:
    text = text_tag.get_text() + '\n'
    save_text(filename, text)
  print('第{}章已经下载完成!'.format(num))

if __name__ == '__main__':
  main()

爬取结果:

python爬取”顶点小说网“《纯阳剑尊》的示例代码

python爬取”顶点小说网“《纯阳剑尊》的示例代码

以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python登录豆瓣并发帖的方法
Jul 08 Python
Python 装饰器深入理解
Mar 16 Python
一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息
Apr 17 Python
Python2和Python3中urllib库中urlencode的使用注意事项
Nov 26 Python
Django模型序列化返回自然主键值示例代码
Jun 12 Python
python原类、类的创建过程与方法详解
Jul 19 Python
Python实现多线程/多进程的TCP服务器
Sep 03 Python
Python计算机视觉里的IOU计算实例
Jan 17 Python
python selenium操作cookie的实现
Mar 18 Python
TensorFlow-gpu和opencv安装详细教程
Jun 30 Python
Pycharm调试程序技巧小结
Aug 08 Python
python用opencv 图像傅里叶变换
Jan 04 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 #Python
python pymysql库的常用操作
Oct 16 #Python
Python基于callable函数检测对象是否可被调用
Oct 16 #Python
python collections模块的使用
Oct 16 #Python
python 如何使用find和find_all爬虫、找文本的实现
Oct 16 #Python
Django实现随机图形验证码的示例
Oct 15 #Python
如何使用Python自动生成报表并以邮件发送
Oct 15 #Python
You might like
php+mysql事务rollback&commit示例
2010/02/08 PHP
解析PHP多种序列化与反序列化的方法
2013/06/06 PHP
PHP加Nginx实现动态裁剪图片方案
2014/03/10 PHP
PHP快速按行读取CSV大文件的封装类分享(也适用于其它超大文本文件)
2014/04/10 PHP
php实现Mongodb自定义方式生成自增ID的方法
2015/03/23 PHP
php中session_id()函数详细介绍,会话id生成过程及session id长度
2015/09/23 PHP
PHP排序算法之简单选择排序(Simple Selection Sort)实例分析
2018/04/20 PHP
兼容FireFox 的 js 日历 支持时间的获取
2009/03/04 Javascript
javascript 获取图片颜色
2009/04/05 Javascript
jQuery autocomplate 自扩展插件、自动完成示例代码
2011/03/28 Javascript
jQuery.fn和jQuery.prototype区别介绍
2013/10/05 Javascript
javaScript中push函数用法实例分析
2015/06/08 Javascript
使用jQuery+EasyUI实现CheckBoxTree的级联选中特效
2015/12/06 Javascript
SpringMVC restful 注解之@RequestBody进行json与object转换
2015/12/10 Javascript
Javascript 实现简单计算器实例代码
2016/10/23 Javascript
AngularJS过滤器filter用法总结
2016/12/13 Javascript
JavaScript实现元素滚动条到达一定位置循环追加内容
2017/12/28 Javascript
vue中实现左右联动的效果
2018/06/22 Javascript
Vue.js 利用v-for中的index值实现隔行变色
2018/08/01 Javascript
深入理解nodejs搭建静态服务器(实现命令行)
2019/02/05 NodeJs
JavaScript实现汉字转换为拼音及缩写的方法示例
2019/03/28 Javascript
LayUI switch 开关监听 获取属性值、更改状态的方法
2019/09/21 Javascript
vue配置nprogress实现页面顶部进度条
2019/09/21 Javascript
python自带的http模块详解
2016/11/06 Python
python中实现字符串翻转的方法
2018/07/11 Python
python交互界面的退出方法
2019/02/16 Python
python实践项目之监控当前联网状态详情
2019/05/23 Python
Python利用PyExecJS库执行JS函数的案例分析
2019/12/18 Python
Keras自定义实现带masking的meanpooling层方式
2020/06/16 Python
解决pyinstaller 打包exe文件太大,用pipenv 缩小exe的问题
2020/07/13 Python
茵宝(Umbro)英国官方商店:英国足球服装生产商
2016/12/29 全球购物
Woolworth官网:澳洲第一大超市
2017/06/25 全球购物
State Cashmere官网:半零售价可持续蒙古羊绒
2020/02/26 全球购物
急诊科护士自我鉴定
2013/10/14 职场文书
《圆明园的毁灭》教学反思
2014/02/28 职场文书
先进党支部事迹材料2016
2016/02/26 职场文书