84669 人學習
152542 人學習
20005 人學習
5487 人學習
7821 人學習
359900 人學習
3350 人學習
180660 人學習
48569 人學習
18603 人學習
40936 人學習
1549 人學習
1183 人學習
32909 人學習
例如用正規表示式配對出 shá 這個拼音。ps:之前說的可能不明確,我用了「 例如」 兩字哈,就是待處理文本裡有拼音,但是不知道具體拼音是什麼,需要找出這些拼音,待處理文本會有中文、拼音、符號(,。:之類的),所以請不要回答諸如re.search(u'shá',text)要正則哈,不是簡單固定的字串。 。 。
re.search(u'shá',text)
ringa_lee
import re regex = re.compile(r'\b[a-z]*[āáǎàōóǒòêēéěèīíǐìūúǔùǖǘǚǜüńňǹɑɡ]+[a-z]*\b') text = "Thǐs ís à pìnyin abóut shá" m = regex.findall(text) print(m)
配對結果:['ís', 'à', 'pìnyin', 'abóut', 'shá']沒有符合第一個Thǐs,因為預設拼音都是小寫,排除了大寫。
你是要搭配所有合法的拼音嗎?
如果是,你去找字典的拼音索引,把裡邊的所有拼音全部|到一起就可以了。也只能這樣,因為拼音不是根據正則,或者其它某種機械的規則定義出來的。你想不漏又不多就只能這樣了,反正也沒多少個。
|
雷雷
配對結果:
['ís', 'à', 'pìnyin', 'abóut', 'shá']
沒有符合第一個Thǐs,因為預設拼音都是小寫,排除了大寫。
你是要搭配所有合法的拼音嗎?
如果是,你去找字典的拼音索引,把裡邊的所有拼音全部
|
到一起就可以了。也只能這樣,因為拼音不是根據正則,或者其它某種機械的規則定義出來的。你想不漏又不多就只能這樣了,反正也沒多少個。雷雷