python은 단어 발생 횟수를 계산합니다
단어 빈도 통계를 수행하려면 을 사용합니다. Dictionary#🎜 🎜#은 의심할 바 없이 가장 적합한 데이터 유형입니다. 단어는 사전의 키로 사용되며, 단어가 나타나는 횟수는 사전의 빈도를 기록하는 데 매우 편리합니다. 각 단어는 전화번호부와 매우 유사하며 각 이름은 전화번호와 연결되어 있습니다.
다음은 importthis.txt 파일에서 단어를 읽어와서 가장 많이 나오는 5개의 단어를 세는 구체적인 구현 코드입니다.# -*- coding:utf-8 -*- import io import re class Counter: def __init__(self, path): """ :param path: 文件路径 """ self.mapping = dict() with io.open(path, encoding="utf-8") as f: data = f.read() words = [s.lower() for s in re.findall("\w+", data)] for word in words: self.mapping[word] = self.mapping.get(word, 0) + 1 def most_common(self, n): assert n > 0, "n should be large than 0" return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n] if __name__ == '__main__': most_common_5 = Counter("importthis.txt").most_common(5) for item in most_common_5: print(item)
('is', 10) ('better', 8) ('than', 8) ('the', 6) ('to', 5)
위 내용은 파이썬은 단어 발생 횟수를 계산합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!