Python의 텍스트 전처리 기술-파이썬 튜토리얼-php.cn

Python은 데이터 과학, 기계 학습, 자연어 처리 및 기타 분야에서 널리 사용되는 강력한 프로그래밍 언어입니다. 이러한 분야에서 텍스트 전처리는 텍스트 데이터의 노이즈를 줄이고 모델의 정확도를 향상시킬 수 있는 매우 중요한 단계입니다. 이 기사에서는 Python의 몇 가지 일반적인 텍스트 전처리 기술을 소개합니다.

1. 텍스트 데이터 읽기

Python에서는 open() 함수를 사용하여 텍스트 파일을 읽을 수 있습니다.

with open('example.txt', 'r') as f: text = f.read()

로그인 후 복사

이 예에서는 "example.txt"라는 텍스트 파일을 열고 그 내용을 읽습니다. 이 텍스트 파일의 내용은 "text"라는 문자열 변수에 저장됩니다. read() 함수를 사용하는 것 외에도 readlines() 함수를 사용하여 텍스트 파일의 내용을 목록에 저장할 수도 있습니다.

with open('example.txt', 'r') as f: lines = f.readlines()

로그인 후 복사

이 예에서는 "example.txt"의 내용이 목록으로 저장되며 각 줄은 목록의 요소가 됩니다. 이는 여러 행의 데이터를 한 번에 읽고 처리할 수 있으므로 대규모 텍스트 데이터로 작업할 때 유용합니다.

2. 구두점 및 숫자 제거

텍스트 전처리에서는 일반적으로 텍스트에서 구두점과 숫자를 제거해야 합니다. Python의 re 모듈은 이러한 작업을 처리하는 데 매우 편리한 정규식 기능을 제공합니다.

import re text = "This is an example sentence! 12345." text = re.sub(r'[^ws]', '', text) # Remove punctuation text = re.sub(r'd+', '', text) # Remove numbers

로그인 후 복사

이 예에서는 먼저 re.sub() 함수와 정규 표현식 "¹"을 사용하여 모든 구두점과 공백을 제거합니다. 그런 다음 re.sub() 함수와 정규식 "d+"를 사용하여 텍스트에서 모든 숫자를 제거합니다. 마지막으로 처리된 텍스트를 문자열 변수 "text"에 저장합니다.

3. 단어 분할

단어 분할은 텍스트를 별도의 단어로 나누는 것을 말합니다. Python의 nltk 라이브러리와 spaCy 라이브러리는 모두 매우 유용한 단어 분할 도구를 제공합니다. 여기서는 nltk 라이브러리를 예로 들어 보겠습니다.

import nltk nltk.download('punkt') text = "This is an example sentence." words = nltk.word_tokenize(text)

로그인 후 복사

이 예에서는 nltk 라이브러리에서 매우 인기 있는 단어 분할 툴킷인 nltk 라이브러리의 punkt 패키지를 먼저 다운로드했습니다. 그런 다음 nltk.word_tokenize() 함수를 사용하여 텍스트를 단어로 분할하고 결과를 "단어" 목록에 저장합니다.

4. 중지 단어 제거

텍스트 처리에서는 일반적인 중지 단어를 제거해야 하는 경우가 많습니다. 일반적인 중지 단어에는 "is", "a", "this" 등이 있습니다. Python의 nltk 라이브러리와 spaCy 라이브러리도 유용한 중지 단어 목록을 제공합니다. 다음은 nltk 라이브러리를 사용한 예입니다.

import nltk nltk.download('stopwords') from nltk.corpus import stopwords text = "This is an example sentence." words = nltk.word_tokenize(text) filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]

로그인 후 복사

이 예에서는 먼저 nltk 라이브러리의 불용어 패키지를 다운로드하고 여기에서 영어 불용어 목록을 가져왔습니다. 그런 다음 목록 이해를 사용하여 단어 목록에서 텍스트의 중지 단어를 제거합니다. 마지막으로 불용어를 포함하지 않는 단어 목록 "filtered_words"를 얻습니다.

5. 형태소 분석

형태소 분석은 다양한 형태의 단어(예: 시제, 단수, 복수 등)를 동일한 형태로 정규화하는 과정입니다. Python의 nltk 라이브러리와 spaCy 라이브러리는 모두 매우 유용한 형태소 분석 도구를 제공합니다. 여기서는 nltk 라이브러리를 예로 들어 보겠습니다.

import nltk from nltk.stem import PorterStemmer stemmer = PorterStemmer() text = "This is an example sentence." words = nltk.word_tokenize(text) stemmed_words = [stemmer.stem(word) for word in words]

로그인 후 복사

이 예에서는 먼저 nltk 라이브러리에서 PorterStemmer 클래스를 가져왔습니다. 그런 다음 PorterStemmer 개체를 인스턴스화합니다. 다음으로, 목록 이해를 사용하여 텍스트에서 어간을 추출하고 결과를 "stemmed_words" 목록에 저장합니다.

6. 품사 태깅

품사 태깅은 텍스트의 단어를 품사(예: 명사, 동사, 형용사 등)에 표시하는 과정입니다. Python의 nltk 라이브러리와 spaCy 라이브러리도 매우 유용한 품사 태깅 도구를 제공합니다. 여기서는 nltk 라이브러리도 예로 들어보겠습니다.

import nltk nltk.download('averaged_perceptron_tagger') text = "This is an example sentence." words = nltk.word_tokenize(text) tagged_words = nltk.pos_tag(words)

로그인 후 복사

이 예에서는 먼저 nltk 라이브러리의 Averaged_perceptron_tagger 패키지를 다운로드했습니다. 그런 다음 nltk.word_tokenize() 함수를 사용하여 텍스트를 단어로 분할하고 결과를 "단어" 목록에 저장합니다. 다음으로 nltk.pos_tag() 함수를 사용하여 품사로 단어에 태그를 지정하고 결과를 "tagged_words" 목록에 저장합니다.

요약

이 문서에서는 텍스트 데이터 읽기, 구두점 및 숫자 제거, 단어 분할, 중지 단어 제거, 형태소 분석 및 품사 태그 지정 등을 포함하여 Python에서 일반적으로 사용되는 몇 가지 텍스트 전처리 기술을 소개합니다. 이러한 기술은 매우 유용하며 텍스트 처리에 널리 사용됩니다. 실제 적용에서는 데이터 정확성과 효과를 향상시키기 위해 필요에 따라 텍스트 전처리에 적합한 기술을 선택할 수 있습니다.