利用python实现汉字转拼音的2种方法


Posted in Python onAugust 12, 2019

前言

在浏览博客时,偶然看到了用python将汉字转为拼音的第三方包,但是在实现的过程中发现一些参数已经更新,现在将两种方法记录一下。

xpinyin

在一些博客中看到,如果要转化成带音节的拼音,需要传递参数,‘show_tone_marks=True',但我在实际使用时发现,已经没有这个参数了,变成了tone_marks,其它的参数和使用方法,一看就明白了,写的很清楚。

看下源码:

class Pinyin(object):

 """translate chinese hanzi to pinyin by python, inspired by flyerhzm's
 `chinese\_pinyin`_ gem

 usage
 -----
 ::

 >>> from xpinyin import Pinyin
 >>> p = Pinyin()
 >>> # default splitter is `-`
 >>> p.get_pinyin(u"上海")
 'shang-hai'
 >>> # show tone marks
 >>> p.get_pinyin(u"上海", tone_marks='marks')
 'shàng-hǎi'
 >>> p.get_pinyin(u"上海", tone_marks='numbers')
 >>> 'shang4-hai3'
 >>> # remove splitter
 >>> p.get_pinyin(u"上海", '')
 'shanghai'
 >>> # set splitter as whitespace
 >>> p.get_pinyin(u"上海", ' ')
 'shang hai'
 >>> p.get_initial(u"上")
 'S'
 >>> p.get_initials(u"上海")
 'S-H'
 >>> p.get_initials(u"上海", u'')
 'SH'
 >>> p.get_initials(u"上海", u' ')
 'S H'

 请输入utf8编码汉字
 .. _chinese\_pinyin: https://github.com/flyerhzm/chinese_pinyin
 """

安装:pip install xpinyin

代码:

from xpinyin import Pinyin


# 实例拼音转换对象
p = Pinyin()
# 进行拼音转换
ret = p.get_pinyin(u"汉语拼音转换", tone_marks='marks')
ret1 = p.get_pinyin(u"汉语拼音转换", tone_marks='numbers')
print(ret+'\n'+ret1)
# 得到转化后的结果
# hàn-yǔ-pīn-yīn-zhuǎn-huàn
# han4-yu3-pin1-yin1-zhuan3-huan4

pypinyin

与xpinyin相比,pypinyin更强大。

安装:pip install pypinyin

使用:

import pypinyin


# 不带声调的(style=pypinyin.NORMAL)
def pinyin(word):
 s = ''
 for i in pypinyin.pinyin(word, style=pypinyin.NORMAL):
 s += ''.join(i)
 return s


# 带声调的(默认)
def yinjie(word):
 s = ''
 # heteronym=True开启多音字
 for i in pypinyin.pinyin(word, heteronym=True):
 s = s + ''.join(i) + " "
 return s


if __name__ == "__main__":
 print(pinyin("忠厚传家久"))
 print(yinjie("诗书继世长"))

源码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from __future__ import unicode_literals

from copy import deepcopy
from itertools import chain

from pypinyin.compat import text_type, callable_check
from pypinyin.constants import (
 PHRASES_DICT, PINYIN_DICT,
 RE_HANS, Style
)
from pypinyin.contrib import mmseg
from pypinyin.utils import simple_seg, _replace_tone2_style_dict_to_default
from pypinyin.style import auto_discover, convert as convert_style

auto_discover()


def seg(hans):
 hans = simple_seg(hans)
 ret = []
 for x in hans:
 if not RE_HANS.match(x): # 没有拼音的字符,不再参与二次分词
  ret.append(x)
 elif PHRASES_DICT:
  ret.extend(list(mmseg.seg.cut(x)))
 else: # 禁用了词语库,不分词
  ret.append(x)
 return ret


def load_single_dict(pinyin_dict, style='default'):
 """载入用户自定义的单字拼音库

 :param pinyin_dict: 单字拼音库。比如: ``{0x963F: u"ā,ē"}``
 :param style: pinyin_dict 参数值的拼音库风格. 支持 'default', 'tone2'
 :type pinyin_dict: dict
 """
 if style == 'tone2':
 for k, v in pinyin_dict.items():
  v = _replace_tone2_style_dict_to_default(v)
  PINYIN_DICT[k] = v
 else:
 PINYIN_DICT.update(pinyin_dict)

 mmseg.retrain(mmseg.seg)


def load_phrases_dict(phrases_dict, style='default'):
 """载入用户自定义的词语拼音库

 :param phrases_dict: 词语拼音库。比如: ``{u"阿爸": [[u"ā"], [u"bà"]]}``
 :param style: phrases_dict 参数值的拼音库风格. 支持 'default', 'tone2'
 :type phrases_dict: dict
 """
 if style == 'tone2':
 for k, value in phrases_dict.items():
  v = [
  list(map(_replace_tone2_style_dict_to_default, pys))
  for pys in value
  ]
  PHRASES_DICT[k] = v
 else:
 PHRASES_DICT.update(phrases_dict)

 mmseg.retrain(mmseg.seg)


def to_fixed(pinyin, style, strict=True):
 """根据拼音风格格式化带声调的拼音.

 :param pinyin: 单个拼音
 :param style: 拼音风格
 :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母
 :return: 根据拼音风格格式化后的拼音字符串
 :rtype: unicode
 """
 return convert_style(pinyin, style=style, strict=strict, default=pinyin)


def _handle_nopinyin_char(chars, errors='default'):
 """处理没有拼音的字符"""
 if callable_check(errors):
 return errors(chars)

 if errors == 'default':
 return chars
 elif errors == 'ignore':
 return None
 elif errors == 'replace':
 if len(chars) > 1:
  return ''.join(text_type('%x' % ord(x)) for x in chars)
 else:
  return text_type('%x' % ord(chars))


def handle_nopinyin(chars, errors='default', heteronym=True):
 py = _handle_nopinyin_char(chars, errors=errors)
 if not py:
 return []
 if isinstance(py, list):
 # 包含多音字信息
 if isinstance(py[0], list):
  if heteronym:
  return py
  # [[a, b], [c, d]]
  # [[a], [c]]
  return [[x[0]] for x in py]

 return [[i] for i in py]
 else:
 return [[py]]


def single_pinyin(han, style, heteronym, errors='default', strict=True):
 """单字拼音转换.

 :param han: 单个汉字
 :param errors: 指定如何处理没有拼音的字符,详情请参考
   :py:func:`~pypinyin.pinyin`
 :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母
 :return: 返回拼音列表,多音字会有多个拼音项
 :rtype: list
 """
 num = ord(han)
 # 处理没有拼音的字符
 if num not in PINYIN_DICT:
 return handle_nopinyin(han, errors=errors, heteronym=heteronym)

 pys = PINYIN_DICT[num].split(',') # 字的拼音列表
 if not heteronym:
 return [[to_fixed(pys[0], style, strict=strict)]]

 # 输出多音字的多个读音
 # 临时存储已存在的拼音,避免多音字拼音转换为非音标风格出现重复。
 # TODO: change to use set
 # TODO: add test for cache
 py_cached = {}
 pinyins = []
 for i in pys:
 py = to_fixed(i, style, strict=strict)
 if py in py_cached:
  continue
 py_cached[py] = py
 pinyins.append(py)
 return [pinyins]


def phrase_pinyin(phrase, style, heteronym, errors='default', strict=True):
 """词语拼音转换.

 :param phrase: 词语
 :param errors: 指定如何处理没有拼音的字符
 :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母
 :return: 拼音列表
 :rtype: list
 """
 py = []
 if phrase in PHRASES_DICT:
 py = deepcopy(PHRASES_DICT[phrase])
 for idx, item in enumerate(py):
  py[idx] = [to_fixed(item[0], style=style, strict=strict)]
 else:
 for i in phrase:
  single = single_pinyin(i, style=style, heteronym=heteronym,
     errors=errors, strict=strict)
  if single:
  py.extend(single)
 return py


def _pinyin(words, style, heteronym, errors, strict=True):
 """
 :param words: 经过分词处理后的字符串,只包含中文字符或只包含非中文字符,
   不存在混合的情况。
 """
 pys = []
 # 初步过滤没有拼音的字符
 if RE_HANS.match(words):
 pys = phrase_pinyin(words, style=style, heteronym=heteronym,
    errors=errors, strict=strict)
 return pys

 py = handle_nopinyin(words, errors=errors, heteronym=heteronym)
 if py:
 pys.extend(py)
 return pys


def pinyin(hans, style=Style.TONE, heteronym=False,
  errors='default', strict=True):
 """将汉字转换为拼音.

 :param hans: 汉字字符串( ``'你好吗'`` )或列表( ``['你好', '吗']`` ).
   可以使用自己喜爱的分词模块对字符串进行分词处理,
   只需将经过分词处理的字符串列表传进来就可以了。
 :type hans: unicode 字符串或字符串列表
 :param style: 指定拼音风格,默认是 :py:attr:`~pypinyin.Style.TONE` 风格。
   更多拼音风格详见 :class:`~pypinyin.Style`
 :param errors: 指定如何处理没有拼音的字符。详见 :ref:`handle_no_pinyin`

   * ``'default'``: 保留原始字符
   * ``'ignore'``: 忽略该字符
   * ``'replace'``: 替换为去掉 ``\\u`` 的 unicode 编码字符串
   (``'\\u90aa'`` => ``'90aa'``)
   * callable 对象: 回调函数之类的可调用对象。

 :param heteronym: 是否启用多音字
 :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 :ref:`strict`
 :return: 拼音列表
 :rtype: list

 :raise AssertionError: 当传入的字符串不是 unicode 字符时会抛出这个异常

 Usage::

 >>> from pypinyin import pinyin, Style
 >>> import pypinyin
 >>> pinyin('中心')
 [['zhōng'], ['xīn']]
 >>> pinyin('中心', heteronym=True) # 启用多音字模式
 [['zhōng', 'zhòng'], ['xīn']]
 >>> pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格
 [['z'], ['x']]
 >>> pinyin('中心', style=Style.TONE2)
 [['zho1ng'], ['xi1n']]
 >>> pinyin('中心', style=Style.CYRILLIC)
 [['чжун1'], ['синь1']]
 """
 # 对字符串进行分词处理
 if isinstance(hans, text_type):
 han_list = seg(hans)
 else:
 han_list = chain(*(seg(x) for x in hans))
 pys = []
 for words in han_list:
 pys.extend(_pinyin(words, style, heteronym, errors, strict=strict))
 return pys


def slug(hans, style=Style.NORMAL, heteronym=False, separator='-',
  errors='default', strict=True):
 """生成 slug 字符串.

 :param hans: 汉字
 :type hans: unicode or list
 :param style: 指定拼音风格,默认是 :py:attr:`~pypinyin.Style.NORMAL` 风格。
   更多拼音风格详见 :class:`~pypinyin.Style`
 :param heteronym: 是否启用多音字
 :param separstor: 两个拼音间的分隔符/连接符
 :param errors: 指定如何处理没有拼音的字符,详情请参考
   :py:func:`~pypinyin.pinyin`
 :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 :ref:`strict`
 :return: slug 字符串.

 :raise AssertionError: 当传入的字符串不是 unicode 字符时会抛出这个异常

 ::

 >>> import pypinyin
 >>> from pypinyin import Style
 >>> pypinyin.slug('中国人')
 'zhong-guo-ren'
 >>> pypinyin.slug('中国人', separator=' ')
 'zhong guo ren'
 >>> pypinyin.slug('中国人', style=Style.FIRST_LETTER)
 'z-g-r'
 >>> pypinyin.slug('中国人', style=Style.CYRILLIC)
 'чжун1-го2-жэнь2'
 """
 return separator.join(chain(*pinyin(hans, style=style, heteronym=heteronym,
     errors=errors, strict=strict)
    ))


def lazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True):
 """不包含多音字的拼音列表.

 与 :py:func:`~pypinyin.pinyin` 的区别是返回的拼音是个字符串,
 并且每个字只包含一个读音.

 :param hans: 汉字
 :type hans: unicode or list
 :param style: 指定拼音风格,默认是 :py:attr:`~pypinyin.Style.NORMAL` 风格。
   更多拼音风格详见 :class:`~pypinyin.Style`。
 :param errors: 指定如何处理没有拼音的字符,详情请参考
   :py:func:`~pypinyin.pinyin`
 :param strict: 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 :ref:`strict`
 :return: 拼音列表(e.g. ``['zhong', 'guo', 'ren']``)
 :rtype: list

 :raise AssertionError: 当传入的字符串不是 unicode 字符时会抛出这个异常

 Usage::

 >>> from pypinyin import lazy_pinyin, Style
 >>> import pypinyin
 >>> lazy_pinyin('中心')
 ['zhong', 'xin']
 >>> lazy_pinyin('中心', style=Style.TONE)
 ['zhōng', 'xīn']
 >>> lazy_pinyin('中心', style=Style.FIRST_LETTER)
 ['z', 'x']
 >>> lazy_pinyin('中心', style=Style.TONE2)
 ['zho1ng', 'xi1n']
 >>> lazy_pinyin('中心', style=Style.CYRILLIC)
 ['чжун1', 'синь1']
 """
 return list(chain(*pinyin(hans, style=style, heteronym=False,
    errors=errors, strict=strict)))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python实现的最近最少使用算法
Jul 10 Python
python实现识别相似图片小结
Feb 22 Python
简单学习Python time模块
Apr 29 Python
Python实现遍历目录的方法【测试可用】
Mar 22 Python
如何用itertools解决无序排列组合的问题
May 18 Python
Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例
Nov 23 Python
Python实现html转换为pdf报告(生成pdf报告)功能示例
May 04 Python
wxpython绘制音频效果
Nov 18 Python
Python实现手机号自动判断男女性别(实例解析)
Dec 22 Python
python 解决print数组/矩阵无法完整输出的问题
Feb 19 Python
pymysql 插入数据 转义处理方式
Mar 02 Python
解决pymysql cursor.fetchall() 获取不到数据的问题
May 15 Python
python面向对象 反射原理解析
Aug 12 #Python
Python中正反斜杠(‘/’和‘\’)的意义与用法
Aug 12 #Python
Django 查询数据库并返回页面的例子
Aug 12 #Python
python3 深浅copy对比详解
Aug 12 #Python
Django获取该数据的上一条和下一条方法
Aug 12 #Python
python中的反斜杠问题深入讲解
Aug 12 #Python
Django CBV与FBV原理及实例详解
Aug 12 #Python
You might like
php 攻击方法之谈php+mysql注射语句构造
2009/10/30 PHP
PHP 全角转半角实现代码
2010/05/16 PHP
php中截取中文字符串的代码小结
2011/07/17 PHP
在Win7 中为php扩展配置Xcache
2014/10/08 PHP
php通过rmdir删除目录的简单用法
2015/03/18 PHP
php实时倒计时功能实现方法详解
2017/02/27 PHP
8款非常棒的响应式jQuery 幻灯片插件推荐
2012/02/02 Javascript
firefox下jquery iframe刷新页面提示会导致重复之前动作
2012/12/17 Javascript
zTree插件之单选下拉菜单实例代码
2013/11/07 Javascript
indexedDB bootstrap angularjs之 MVC DOMO (应用示例)
2016/06/20 Javascript
微信小程序 欢迎界面开发的实例详解
2016/11/30 Javascript
JS排序之选择排序详解
2017/04/08 Javascript
关于angular js_$watch监控属性和对象详解
2017/04/24 Javascript
微信小程序城市定位的实现实例(获取当前所在国家城市信息)
2017/05/17 Javascript
详解jQuery中关于Ajax的几个常用的函数
2017/07/17 jQuery
详解JSONObject和JSONArray区别及基本用法
2017/10/25 Javascript
angular2系列之路由转场动画的示例代码
2017/11/09 Javascript
js技巧之十几行的代码实现vue.watch代码
2018/06/09 Javascript
vue + axios get下载文件功能
2019/09/25 Javascript
javascript History对象原理解析
2020/02/17 Javascript
vue-router定义元信息meta操作
2020/12/07 Vue.js
python中django框架通过正则搜索页面上email地址的方法
2015/03/21 Python
python&MongoDB爬取图书馆借阅记录
2016/02/05 Python
教你用 Python 实现微信跳一跳(Mac+iOS版)
2018/01/04 Python
详解Python 函数如何重载?
2019/04/23 Python
django 简单实现登录验证给你
2019/11/06 Python
使用IDLE的Python shell窗口实例详解
2019/11/19 Python
python 数据库查询返回list或tuple实例
2020/05/15 Python
Coggles美国/加拿大:高级国际时装零售商
2018/10/23 全球购物
Book Depository欧盟:一家领先的国际图书零售商
2019/05/21 全球购物
亚马逊巴西站:Amazon.com.br
2019/09/22 全球购物
使用Vue.js和MJML创建响应式电子邮件
2021/03/23 Vue.js
2014年国庆节庆祝建国65周年比赛演讲稿
2014/09/21 职场文书
教师个人自我评价
2015/03/04 职场文书
2015年学校总务处工作总结
2015/05/19 职场文书
导游词之峨眉乐山/兵马俑/北京故宫御花园
2019/09/03 职场文书