社群學習工具庫休閒

繁体中文

首頁 > 後端開發 > Python教學 > 如何衡量文本文檔之間的相似度？

如何衡量文本文檔之間的相似度？

DDD

發布： 2024-10-23 06:55:02

原創

1047 人瀏覽過

How to Measure the Similarity Between Text Documents?

確定文本文檔之間的相似度

測量文檔相似度

為了確定NLP 中兩個文本文檔之間的相似度，標準方法是將文件轉換為TF-IDF 向量。然後利用這些向量來計算餘弦相似度，這是資訊檢索系統中常用的一種量測。如需更深入的信息，請參閱線上電子書《資訊檢索簡介》。

Python 中的實作

Python 提供了 Gensim 等函式庫和 scikit-learn 有助於計算 TF-IDF 和餘弦相似度。在scikit-learn 中，計算文件之間的餘弦相似度涉及利用它們的TF-IDF 向量：

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

登入後複製

可以直接處理純文字文件：

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away"]
tfidf = TfidfVectorizer(min_df=1, stop_words="english").fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

登入後複製

解釋結果

產生的稀疏矩陣pairwise_similarity是正方形的。要識別與給定文檔最相似的文檔，您可以在屏蔽對角線元素（表示自相似性）後使用 NumPy 的 argmax 函數。

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "Document to compare"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
most_similar_doc = corpus[result_idx]</code>

登入後複製

以上是如何衡量文本文檔之間的相似度？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

來源：php

上一篇：如何使用 TF-IDF 和餘弦相似度測量文字相似度？下一篇：Python 中帶參數的函數可以傳遞給其他函數嗎？

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

如何在 Go 中解組未知的 Protobuf 訊息？

2024-11-30 09:21:13
如何使用 Bootstrap 建立一個在滾動時動畫/收縮的導覽列？

2024-11-30 09:20:11
Java 的 `instanceof` 運算子如何決定物件類型？

2024-11-30 09:19:09
如何在 Java 中監控 CPU、記憶體和磁碟使用情況？

2024-11-30 09:18:10
在 MySQL 中選擇兩個日期之間的資料時如何包含上限日期？

2024-11-30 09:16:10
C 11 的 `std::vector::resize()` 和 Boost.Container 的 `resize()` 如何處理未初始化的元素？

2024-11-30 09:15:14
PHP：逃離日期地獄的實用方法

2024-11-30 09:14:19
如何在 React 中安全地將 HTML 字串渲染為 JSX？

2024-11-30 09:13:10
為什麼將數組映射到 Go 結構時 JSON Unmarshal 失敗？

2024-11-30 09:12:17
在 Go 中編組「map[string]string」時，「json.Marshal」什麼時候會失敗？

2024-11-30 09:11:13

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

3

2042

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

11

2202

子窗口操作父窗口，輸出沒反應前兩句可執行，最後一句沒辦法應

來自於 2024-04-19 15:37:47

0

1

1858

父視窗沒有輸出 document.onclick = function(){ window.opener.document.write('我是子視窗的輸出'); ...

來自於 2024-04-18 23:52:34

0

1

1746

關於CSS心智圖的課件在哪？課件

來自於 2024-04-16 10:10:18

0

0

1766

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1421158
php入門教程之一週學會PHP

4264806
JAVA 初級入門影片教學

2515488
小甲魚零基礎入門學習Python影片教學

506146
PHP 零基礎入門教學

861249

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板