Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?-Tutorial Python-php.cn

Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?

Mary-Kate Olsen

Lepaskan： 2024-10-23 06:53:30

asal

340 orang telah melayarinya

How to Measure Text Similarity using TF-IDF and Cosine Similarity?

Mengukur Kesamaan Teks dengan TF-IDF dan Kesamaan Kosinus

Menentukan persamaan antara dua dokumen teks ialah tugas penting dalam perlombongan teks dan maklumat mendapatkan semula. Satu pendekatan popular melibatkan penggunaan TF-IDF (Term Frequency-Inverse Document Frequency) dan kesamaan kosinus.

TF-IDF memberikan pemberat kepada setiap perkataan dalam dokumen berdasarkan kekerapannya dalam dokumen itu dan kelangkaannya merentasi korpus dokumen. Dokumen dengan corak perkataan yang serupa akan berkongsi vektor TF-IDF yang lebih tinggi.

Persamaan kosinus mengukur sudut antara dua vektor, memberikan nilai antara 0 (tiada persamaan) dan 1 (persamaan sempurna). Dalam kes kami, vektor TF-IDF bagi kedua-dua dokumen membentuk vektor ini, dan persamaan kosinus mengukur sudutnya.

Pelaksanaan Python

Dalam Python, menggunakan Pakej scikit-learn dan Gensim, pengiraan persamaan berpasangan adalah mudah:

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

Salin selepas log masuk

Sebagai alternatif, jika dokumen sudah bertali, gunakan:

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."]
vect = TfidfVectorizer(min_df=1, stop_words="english")
tfidf = vect.fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

Salin selepas log masuk

Mentafsir Keputusan

pairwise_similarity ialah matriks jarang yang mewakili persamaan antara setiap pasangan dokumen. Untuk mencari dokumen yang paling serupa dengan dokumen tertentu, tutupkan kesamaan dokumen dengan dirinya sendiri (tetapkan kepada NaN) dan cari nilai maksimum dalam barisnya menggunakan np.nanargmax():

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "The scikit-learn docs are Orange and Blue"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
similar_doc = corpus[result_idx]</code>

Salin selepas log masuk

Pertimbangan Lain

Untuk korpora dan perbendaharaan kata besar, menggunakan matriks jarang adalah lebih cekap daripada menukar kepada tatasusunan NumPy.

Dengan melaraskan parameter dalam TfidfVectorizer, seperti min_df untuk dokumen minimum kekerapan, pengiraan TF-IDF boleh disesuaikan untuk memenuhi keperluan khusus.

Sumber Tambahan

[Pengenalan kepada Pengambilan Maklumat](http://infolab .stanford.edu/~backrub/classes/2002/cs276/handouts/04-tfidf.pdf)
[Mengkomputerkan Persamaan Berpasangan dengan Gensim](https://stackoverflow.com/questions/23752770/computing- berpasangan-persamaan-dengan-gensim)

Atas ialah kandungan terperinci Bagaimana untuk Mengukur Kesamaan Teks menggunakan TF-IDF dan Kesamaan Kosinus?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!