从 Python 中的字符串中去除不可打印的字符
在 Perl 中,s/[^[:print:]]// g 正则表达式有效地从字符串中删除所有不可打印的字符。然而,在 Python 中,没有等效的 POSIX 正则表达式类,让一些人想知道如何完成相同的任务。
理解 Unicode
挑战在于处理 Unicode 字符,因为 string.printable 方法可能会无意中将它们删除。
构建自定义字符类
为了解决这个问题,我们可以使用 unicodedata 构造一个自定义字符类模块。 unicodedata.category() 函数提供对字符类别的深入了解。例如,我们可以定义一个名为 control_characters 的字符类,通过从 Unicode 字符集中过滤掉这些类别来表示不可打印的字符,例如控制字符和代理字符。
<code class="python">import unicodedata import re categories = {'Cc', 'Cf', 'Cs'} # Include desired categories here control_chars = ''.join(chr(i) for i in range(sys.maxunicode) if unicodedata.category(chr(i)) in categories) control_char_re = re.compile('[%s]' % re.escape(control_chars))</code>
与迭代字符串。
<code class="python">def remove_control_chars(s): return control_char_re.sub('', s)</code>
额外自定义
对于需要过滤其他类别(例如私人使用字符)的场景,您可以扩展字符类
<code class="python">categories.add('Co') # Add private-use characters # Rebuild the character class and regex</code>
通过利用这种方法,您可以有效地从 Python 中的 Unicode 字符串中去除不可打印的字符,满足基本和自定义用例。
以上是如何在 Python 中从字符串中删除不可打印的字符?的详细内容。更多信息请关注PHP中文网其他相关文章!