Heim > Backend-Entwicklung > Python-Tutorial > So implementieren Sie eine einfache Textzeichenfolgenverarbeitung in Python

So implementieren Sie eine einfache Textzeichenfolgenverarbeitung in Python

不言
Freigeben: 2018-05-04 15:42:26
Original
1512 Leute haben es durchsucht

这篇文章主要介绍了Python实现简单文本字符串处理的方法,涉及Python针对文本字符串的切割、计算、转换等相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python实现简单文本字符串处理的方法。分享给大家供大家参考,具体如下:

对于一个文本字符串,可以使用Python的string.split()方法将其切割。下面看看实际运行效果。

1

2

mySent = 'This book is the best book on python!'

print mySent.split()

Nach dem Login kopieren

输出:

1

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python!']

Nach dem Login kopieren

可以看到,切分的效果不错,但是标点符号也被当成了词,可以使用正则表达式来处理,其中分隔符是除单词、数字外的任意字符串。

1

2

3

4

5

import re

reg = re.compile('\\W*')

mySent = 'This book is the best book on python!'

listof = reg.split(mySent)

print listof

Nach dem Login kopieren

输出为:

1

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python', '']

Nach dem Login kopieren

现在得到了一系列词组成的词表,但是里面的空字符串需要去掉。

可以计算每个字符串的长度,只返回大于0的字符串。

1

2

3

4

5

6

import re

reg = re.compile('\\W*')

mySent = 'This book is the best book on python!'

listof = reg.split(mySent)

new_list = [tok for tok in listof if len(tok)>0]

print new_list

Nach dem Login kopieren

输出为:

1

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

Nach dem Login kopieren

最后,发现句子中的第一个字母是大写的。我们需要同一形式,把大写转化为小写。Python内嵌的方法,可以将字符串全部转化为小写(.lower())或大写(.upper())

1

2

3

4

5

6

import re

reg = re.compile('\\W*')

mySent = 'This book is the best book on python!'

listof = reg.split(mySent)

new_list = [tok.lower() for tok in listof if len(tok)>0]

print new_list

Nach dem Login kopieren

输出为:

1

['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

Nach dem Login kopieren

下面来看一封完整的电子邮件:

内容

1

2

3

4

5

6

7

8

Hi Peter,

 

With Jose out of town, do you want to

meet once in a while to keep things

going and do some interesting stuff?

 

Let me know

Eugene

Nach dem Login kopieren

1

2

3

4

5

6

import re

reg = re.compile('\\W*')

email = open('email.txt').read()

list = reg.split(email)

new_txt = [tok.lower() for tok in list if len(tok)>0]

print new_txt

Nach dem Login kopieren

输出:

复制代码 代码如下:

1

['hi', 'peter', 'with', 'jose', 'out', 'of', 'town', 'do', 'you', 'want', 'to', 'meet', 'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 'some', 'interesting', 'stuff', 'let', 'me', 'know', 'eugene']

Nach dem Login kopieren

相关推荐:

Python实现获取前100组勾股数的方法


Das obige ist der detaillierte Inhalt vonSo implementieren Sie eine einfache Textzeichenfolgenverarbeitung in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage