> 백엔드 개발 > 파이썬 튜토리얼 > 외부 라이브러리 없이 Python에서 문장 문자열 간의 코사인 유사성을 계산하는 방법은 무엇입니까?

외부 라이브러리 없이 Python에서 문장 문자열 간의 코사인 유사성을 계산하는 방법은 무엇입니까?

Linda Hamilton
풀어 주다: 2024-10-31 14:30:02
원래의
1065명이 탐색했습니다.

How to Calculate Cosine Similarity Between Sentence Strings in Python Without External Libraries?

외부 라이브러리 없이 문장 문자열의 코사인 유사성 계산

외부 모듈 없이 두 텍스트 문자열 간의 코사인 유사성을 계산하려면 간단한 Python 구현을 사용하세요. 채용될 수 있습니다. 이 과정에서는 기본 코사인 유사성 공식이 활용됩니다.

cos(θ) = (A · B) / (||A|| · ||B||)
로그인 후 복사

여기서:

  • A와 B는 문장을 나타내는 두 벡터입니다.
  • A·B 는 벡터 A와 B의 내적입니다.
  • ||A|| 그리고 ||B|| 는 벡터 A와 B의 각각의 크기입니다.

구현

다음 Python 코드는 이 공식의 실제 구현을 제공합니다.

<code class="python">import math
import re
from collections import Counter

WORD = re.compile(r"\w+")

def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])

    sum1 = sum([vec1[x] ** 2 for x in list(vec1.keys())])
    sum2 = sum([vec2[x] ** 2 for x in list(vec2.keys())])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator


def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)</code>
로그인 후 복사

이 코드를 사용하려면 text_to_Vector 함수를 사용하여 문장 문자열을 벡터로 변환한 다음 get_cosine 함수를 사용하여 코사인 유사성을 계산합니다.

<code class="python">text1 = "This is a foo bar sentence ."
text2 = "This sentence is similar to a foo bar sentence ."

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print("Cosine:", cosine)</code>
로그인 후 복사

이렇게 하면 두 문장 문자열 간의 코사인 유사성이 출력됩니다. tf-idf 가중치는 이 구현에 포함되지 않지만 적합한 코퍼스를 사용할 수 있는 경우 추가할 수 있습니다.

위 내용은 외부 라이브러리 없이 Python에서 문장 문자열 간의 코사인 유사성을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿