使用TF-IDF 和餘弦相似度測量文本相似度
確定兩個文本文檔之間的相似度是文本挖掘和資訊中的一項關鍵任務檢索。一種流行的方法是利用 TF-IDF(術語頻率-逆文檔頻率) 和 餘弦相似度。
TF-IDF 分配權重根據文件中每個單字在該文件中的出現頻率及其在整個文件語料庫中的稀有性來對文件中的每個單字進行分類。具有相似單字模式的文件將共用更高的 TF-IDF 向量。
餘弦相似度 測量兩個向量之間的角度,提供 0(無相似性)和 1(完全相似)之間的值。在我們的例子中,兩個文件的 TF-IDF 向量形成了這些向量,餘弦相似度量化了它們的角度。
Python 實作
在Python 中,使用scikit-learn 和Gensim 包,計算成對相似度很包簡單:
<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer documents = [open(f).read() for f in text_files] tfidf = TfidfVectorizer().fit_transform(documents) pairwise_similarity = tfidf * tfidf.T</code>
或者,如果文件已經是字串,請使用:
<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."] vect = TfidfVectorizer(min_df=1, stop_words="english") tfidf = vect.fit_transform(corpus) pairwise_similarity = tfidf * tfidf.T</code>
解釋結果
pairwise_similarity 是稀疏性矩陣,表示每個文檔對之間的相似度。要查找與特定文檔最相似的文檔,請屏蔽文檔與其自身的相似性(將其設置為NaN),並使用np.nanargmax() 查找其行中的最大值:
<code class="python">import numpy as np arr = pairwise_similarity.toarray() np.fill_diagonal(arr, np.nan) input_doc = "The scikit-learn docs are Orange and Blue" input_idx = corpus.index(input_doc) result_idx = np.nanargmax(arr[input_idx]) similar_doc = corpus[result_idx]</code>
其他注意事項
對於大型語料庫和詞彙表,使用稀疏矩陣比轉換為NumPy 數組更有效率。
透過調整 TfidfVectorizer 中的參數,例如最小文件的 min_df頻率,可以自訂 TF-IDF 計算以滿足特定要求。
其他資源
以上是如何使用 TF-IDF 和餘弦相似度測量文字相似度?的詳細內容。更多資訊請關注PHP中文網其他相關文章!