编程 Python

解决pyPdf和pyPdf2在合并pdf时出现异常的问题

Posted in Python onApril 03, 2020

当一个pdf文件有多page的时候，它将出来见你！

方法是取直接修改那个文件generic.py

(1) pyPdf

路径大约在这里：

/usr/lib/python2.7/site-packages/pyPdf/generic.py

if data.has_key(key):
  # multiple definitions of key not permitted
  raise utils.PdfReadError, "multiple definitions in dictionary"
data[key] = value

大约在532--536行

将它修改为：

if not data.get(key):
 
 data[key] = value

（2）pyPdf2

路径大约在：

/usr/lib/python2.7/site-packages/PyPDF2/generic.py

if not data.get(key):
  data[key] = value
elif pdf.strict:
  # multiple definitions of key not permitted
  raise utils.PdfReadError("Multiple definitions in dictionary at byte %s for key %s" \
           % (utils.hexStr(stream.tell()), key))

修改为：

if not data.get(key):
  data[key] = value

补充知识：在Python里如何切分中文文本句子（分句）、英文文本分句（切分句子）

在处理文本时，会遇到需要将文本以句子为单位进行切分（分句）的场景，而文本又可以分为中文文本和英文文本，处理的方法会略有不同。本文会介绍 Python 是如何处理分句的。

分句的关键是找到合适的结束符号，比如：中文里的。，英文里的 . 等，而且，在这一点上中英也是有很大区分的。

这里介绍一种纯用 Python 实现的分句函数。

def cut_sentences(content):
	# 结束符号，包含中文和英文的
	end_flag = ['?', '!', '.', '？', '！', '。', '…']
	
	content_len = len(content)
	sentences = []
	tmp_char = ''
	for idx, char in enumerate(content):
		# 拼接字符
		tmp_char += char

		# 判断是否已经到了最后一位
		if (idx + 1) == content_len:
			sentences.append(tmp_char)
			break
			
		# 判断此字符是否为结束符号
		if char in end_flag:
			# 再判断下一个字符是否为结束符号，如果不是结束符号，则切分句子
			next_idx = idx + 1
			if not content[next_idx] in end_flag:
				sentences.append(tmp_char)
				tmp_char = ''
				
	return sentences

content = '在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同。

本文会介绍 Python 是如何处理 分句 的。

这个函数可以通过修改 end_flag （结束符号），来自定义特定的句子切分方式，比如加入；等符号。

当然，也可以用正则表达式来完成分句，使用 re.split 的方法。

import re

def cut_sentences(content):
	sentences = re.split(r'(\.|\!|\?|。|！|？|\.{6})', content)
	return sentences

content = content = '在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同

。

本文会介绍 Python 是如何处理 分句 的

。

这里还可以安利大家一个非常不错的处理中文标点符号的第三库： zhon，可以通过 pip install zhon 安装，功能也算非常丰富。

我们使用 zhon 来实现中文分句。

import re
import zhon

rst = re.findall(zhon.hanzi.sentence, '我买了一辆车。妈妈做的菜，很好吃！')
print(rst)

['我买了一辆车。', '妈妈做的菜，很好吃！']

大家可以阅读 zhon 的官方文档，了解更多的使用案例。

以上这篇解决pyPdf和pyPdf2在合并pdf时出现异常的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

解决pyPdf和pyPdf2在合并pdf时出现异常的问题

- Author -

shanzhizi

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python k-近邻算法实例分享

Jun 11 Python

在Python的Django框架中获取单个对象数据的简单方法

Jul 17 Python

Python实现查找匹配项作处理后再替换回去的方法

Jun 10 Python

Python实现对百度云的文件上传(实例讲解)

Oct 21 Python

python查看模块安装位置的方法

Oct 16 Python

python版飞机大战代码分享

Nov 20 Python

解决PySide+Python子线程更新UI线程的问题

Jan 11 Python

python进程和线程用法知识点总结

May 28 Python

Python GUI编程文本弹窗的实例

Jun 11 Python

tensorflow安装成功import tensorflow 出现问题

Apr 16 Python

python右对齐的实例方法

Jul 05 Python

jupyter notebook更换皮肤主题的实现

Jan 07 Python

Python利用PyPDF2库获取PDF文件总页码实例

Apr 03 #Python

Numpy 理解ndarray对象的示例代码

Apr 03 #Python

python计算Content-MD5并获取文件的Content-MD5值方式

Apr 03 #Python

Django自定义列表 models字段显示方式

Apr 03 #Python

使用Django清空数据库并重新生成

Apr 03 #Python

Python基础类继承重写实现原理解析

Apr 03 #Python

Django实现列表页商品数据返回教程

Apr 03 #Python

You might like

使用Apache的htaccess防止图片被盗链的解决方法

2013/04/27 PHP

php 二维数组快速排序算法的实现代码

2017/10/17 PHP

PHP 应用容器化以及部署方法

2018/02/12 PHP

ANT 压缩(去掉空格/注释)JS文件可提高js运行速度

2013/04/15 Javascript

JavaScript中的object转换成number或string规则介绍

2014/12/31 Javascript

jquery文档操作wrap()方法实例简述

2015/01/10 Javascript

js库Modernizr的介绍和使用

2015/05/07 Javascript

多种jQuery绑定事件的实现方式

2016/06/13 Javascript

JS实现的表头列头固定页面功能示例

2017/01/10 Javascript

详解Vue 方法与事件处理器

2017/06/20 Javascript

JS实现弹出下载对话框及常见文件类型的下载

2017/07/13 Javascript

极简主义法编写JavaScript类

2017/11/02 Javascript

jQuery+css last-child实现选择最后一个子元素操作示例

2018/12/10 jQuery

vue 弹窗时监听手机返回键关闭弹窗功能(页面不跳转)

2019/05/10 Javascript

[01:00:53]OG vs IG 2018国际邀请赛小组赛BO2 第一场 8.18

2018/08/19 DOTA

python自动化测试之从命令行运行测试用例with verbosity

2014/09/28 Python

python使用range函数计算一组数和的方法

2015/05/07 Python

Python 类的继承实例详解

2017/03/25 Python

Python 加密的实例详解

2017/10/09 Python

int在python中的含义以及用法

2019/06/27 Python

Selenium+Python 自动化操控登录界面实例(有简单验证码图片校验)

2019/06/28 Python

python集合能干吗

2020/07/19 Python

python 实现"神经衰弱"翻牌游戏

2020/11/09 Python

Python系统公网私网流量监控实现流程

2020/11/23 Python

娱乐地球：Entertainment Earth

2020/01/08 全球购物

体育老师的教学自我评价分享

2013/11/19 职场文书

平面设计岗位职责

2013/12/14 职场文书

学校安全教育制度

2014/01/31 职场文书

校园摄影活动策划方案

2014/02/05 职场文书

投标担保书范文

2014/04/02 职场文书

幼儿老师求职信

2014/06/30 职场文书

新闻编辑求职信

2014/07/13 职场文书

技术支持岗位职责

2015/02/13 职场文书

证婚人致辞精选

2015/07/28 职场文书

python字符串拼接.join()和拆分.split()详解

2021/11/23 Python

TV动画《神废柴☆偶像》公布先导PV

2022/03/20 日漫