编程 Python

Python下载网络小说实例代码

Posted in Python onFebruary 03, 2018

看网络小说一般会攒上一波，然后导入Kindle里面去看，但是攒的多了，机械的Ctrl+C和Ctrl+V实在是OUT，所以就出现了此文。

其实Python我也是小白，用它的目的主要是它强大文本处理能力和网络支持，以及许多好用的库，不需要自己造轮子。而且真心比C方便啊（真是用了才知道）

分析要获取的网页

Python下载网络小说实例代码

我要获取的主要是3个东西：

文章的标题。<div id="title">正文第一章北灵院</div>
文章正文内容。<div id="content" style="line-height: 150%; color: rgb(0, 0, 0);">
下一章的URL。<a href="11455541.html" rel="external nofollow" >下一页</a>

还有就是注意网页的编码，这个网页的编码是GBK，但在实际运行过程中，我用GBK会出现网页解码错误:

UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 2-3: illegal multibyte sequence

所以换用了gb18030，问题就解决了，因为一般修仙网络小说中，会出现各种王霸之气的文字，你们懂得，所以需要更加牛逼文字库，你们感受一下博大精深的字符编码。

Python下载网络小说实例代码

源代码

我就知道，大家要这个，哈哈哈。

主函数

#主函数
if __name__ == '__main__':
  global numChapter
  global NOVERL

  NOVERL = '大主宰.txt'
  #NOVERL = '择天记.txt'
  NOVERL = '武动乾坤.txt'


  if(NOVERL == '大主宰.txt'):
    textStartURL = 'http://www.bxwx8.org/b/62/62724/11455540.html';#大主宰第一章的URL
    textStartURL = 'http://www.bxwx8.org/b/62/62724/28019405.html';#第一千两百三十七章 鬼大师
  else:  
    textStartURL = 'http://www.bxwx8.org/b/98/98289/17069215.html';#择天记第一章URL
    textStartURL = 'http://www.bxwx8.org/b/98/98289/28088874.html';#择天记第七十八章 合剑术

    textStartURL = 'http://www.bxwx8.org/b/35/35282/5839471.html';#武动乾坤第一章
    #textStartURL = 'http://www.bxwx8.org/b/35/35282/7620539.html';#武动乾坤
  nextURL = textStartURL;

  isEnd = False

  f = open(NOVERL, 'w', encoding='utf-8')  
  f.close()

  numChapter = 0;
  while(not isEnd):
    nextURL,isEnd = findNextTextURL(nextURL)

  print('end of capture!')
  print('获取到 ' + str(numChapter) + ' 章')

获取内容和下一章URL

#找到 下一章节的URL
#获取小说内容
def findNextTextURL(url):
  global numChapter
  global NOVERL
  #如果nextURL == endURL 则返回false

  if(NOVERL == '大主宰.txt'):
    endURL = 'http://www.bxwx8.org/b/62/62724/index.html'#大主宰
    headURL = 'http://www.bxwx8.org/b/62/62724/'#大主宰
  else:  
    endURL = 'http://www.bxwx8.org/b/98/98289/index.html'#择天记
    headURL = 'http://www.bxwx8.org/b/98/98289/'#择天记

    endURL = 'http://www.bxwx8.org/b/35/35282/index.html'#武动乾坤
    headURL = 'http://www.bxwx8.org/b/35/35282/'#武动乾坤

  isEnd = False 


  resp   = urllib.request.urlopen(url)

  #处理的字符的确是gbk的，但是其中夹杂的部分特殊字符，
  #是gbk编码中所没有的如果有些特殊字符是GB18030中有的，但是是gbk中没有的。
  #则用gbk去解码，去所不支持的字符，也比如会出错。
  #所以，此种情况，可以尝试用和当前编码（gbk）所兼容的但所包含字符更多的编码（gb18030）去解码，或许就可以了。
  #allHtml = resp.read().decode('gbk')#
  allHtml = resp.read().decode('gb18030')#

  textSoup = BeautifulSoup(allHtml)

  #章节名
  strChapter = textSoup.find(id='title').getText().split(r'【')[0]
  strChapter = strChapter.split(r'（')[0]
  strChapter = strChapter.replace('正文 ','') + '\n'
  numChapter = numChapter + 1
  strID = '#' + str(numChapter) + '-'
  strChapter = strID + strChapter

  strChapter = strChapter + '\n------------------------------\n' + url + '\n------------------------------\n'
  #小说正文
  strNovel = textSoup.find(id='content').getText()
  strNovel = strNovel.replace('  ','\n')

  #除去正文中多余的第XXX章
  strMatch = r"第[\u4e00-\u9fa5]+章"
  list2replace = re.findall(strMatch, strNovel)
  if list2replace:
    str2replace = list2replace[0]
    strNovel = strNovel.replace(str2replace, '')

  #合并章节和正文
  strNovel = strChapter + strNovel + '\n------------------------------\n------------------------------\n'

  #写到txt文件中
  write2TXT(strNovel)

  #获取下一个章节的URL
  nextURL = re.findall(r'var next_page = "[\w]+.html"', allHtml)[0]
  nextURL = nextURL.replace(r'"', '')
  nextURL = nextURL.replace(r'var next_page = ', '')
  nextURL = headURL + nextURL

  print(numChapter)#章节数
  print(strChapter)#章节名字
  print((nextURL))#下一章URL


  if(endURL == nextURL):
    isEnd = True

  return nextURL,isEnd

写入TXT

#写到文本文件中
def write2TXT(txt):
  global NOVERL

  f = open(NOVERL, 'a', encoding='utf-8')
  f.write(txt + '\n\n')
  f.close()

结束语

三个说明：

txt文本的编排肯定不好，而且在Kindle里面无法自动分章，多看阅读可以，原生系统就GG了，所以下一步可以用epubBuilder这款软件进行二次编排，输出mobi导入你的Kindle。
本程序只是针对这个网站而已，但是如果网站换了，细节性代码就得重新写了。不过大框架还可以用。
网络小说毒害有志青年，一入网文深是海，从此节操是路人，诸君且行且珍惜!

总结

以上就是本文关于Python下载网络小说实例代码的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

Python下载网络小说实例代码

- Author -

祥知道

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python获取当前时间的方法

Jan 14 Python

使用python编写批量卸载手机中安装的android应用脚本

Jul 21 Python

在Python中测试访问同一数据的竞争条件的方法

Apr 23 Python

python requests 测试代理ip是否生效

Jul 25 Python

python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

Apr 15 Python

python使用Matplotlib改变坐标轴的默认位置

Oct 18 Python

Linux下升级安装python3.8并配置pip及yum的教程

Jan 02 Python

pyqt5 QlistView列表显示的实现示例

Mar 24 Python

pyautogui自动化控制鼠标和键盘操作的步骤

Apr 01 Python

python框架flask入门之路由及简单实现方法

Jun 07 Python

Python类super()及私有属性原理解析

Jun 15 Python

python 递归相关知识总结

Mar 03 Python

JS设计模式之责任链模式实例详解

Feb 03 #Python

numpy使用技巧之数组过滤实例代码

Feb 03 #Python

python验证码识别实例代码

Feb 03 #Python

Django中cookie的基本使用方法示例

Feb 03 #Python

Python数据分析之双色球统计两个红和蓝球哪组合比例高的方法

Feb 03 #Python

Python数据分析之双色球统计单个红和蓝球哪个比例高的方法

Feb 03 #Python

Python数据分析之双色球中蓝红球分析统计示例

Feb 03 #Python

You might like

初学者入门：细述PHP4的核心Zend

2006/09/05 PHP

完整删除ecshop中获取店铺信息的API

2014/12/24 PHP

PHP使用http_build_query()构造URL字符串的方法

2016/04/02 PHP

JQuery优缺点分析说明

2011/04/10 Javascript

jquery判断元素是否隐藏的多种方法

2014/05/06 Javascript

node.js中的querystring.escape方法使用说明

2014/12/10 Javascript

JavaScript设置获取和设置属性的方法

2015/03/04 Javascript

详解JavaScript的变量和数据类型

2015/11/27 Javascript

javascript跑马灯抽奖实例讲解

2020/04/17 Javascript

理解javascript正则表达式

2016/03/08 Javascript

全面介绍javascript实用技巧及单竖杠

2016/07/18 Javascript

JavaScript中绑定事件的三种方式及去除绑定

2016/11/05 Javascript

ES6中Generator与异步操作实例分析

2017/03/31 Javascript

Centos6.8下Node.js安装教程

2017/05/12 Javascript

通过V8源码看一个关于JS数组排序的诡异问题

2017/08/14 Javascript

Vue-Access-Control 前端用户权限控制解决方案

2017/12/01 Javascript

JavaScript实现的弹出遮罩层特效经典示例【基于jQuery】

2019/07/10 jQuery

Layui事件监听的实现(表单和数据表格)

2019/10/17 Javascript

vue 子组件和父组件传值的示例

2020/09/11 Javascript

学习python处理python编码问题

2011/03/13 Python

浅析Python pandas模块输出每行中间省略号问题

2018/07/03 Python

使用Python向DataFrame中指定位置添加一列或多列的方法

2019/01/29 Python

python3实现字符串操作的实例代码

2019/04/16 Python

Python HTMLTestRunner测试报告view按钮失效解决方案

2020/05/25 Python

中国高端鲜花第一品牌：roseonly（一生只送一人）

2017/02/12 全球购物

佳能加拿大网上商店：Canon eStore Canada

2018/04/04 全球购物

绘儿乐产品官方在线商店：Crayola.com

2019/09/07 全球购物

美国小蜜蜂Burt’s Bees德国官网：天然唇部、皮肤和身体护理产品

2020/06/14 全球购物

护士的岗位职责

2013/12/04 职场文书

美国探亲签证邀请信

2014/02/05 职场文书

公证书标准格式

2014/04/10 职场文书

重点工程汇报材料

2014/08/27 职场文书

成品仓库管理员岗位职责

2015/04/09 职场文书

酒店工程部主管岗位职责

2015/04/16 职场文书

催款函怎么写

2015/06/24 职场文书

Windows下使用Nginx+Tomcat做负载均衡的完整步骤

2021/03/31 Servers