開創性CVM演算法破解40多年計數難題！電腦科學家擲硬幣算出「哈姆雷特」獨特單字-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

開創性CVM演算法破解40多年計數難題！電腦科學家擲硬幣算出「哈姆雷特」獨特單字

王林

Jun 07, 2024 pm 03:44 PM

ai 演算法數學

計數，聽起來簡單，卻在實際執行很困難。

想像一下，你被送到一片原始熱帶雨林，進行野生動物普查。每當看到一隻動物，就拍一張照片。

數位相機只是記錄追蹤動物總數，但你對獨特動物的數量感興趣，卻沒有統計。

那麼，若想取得這獨特動物數量，最好的方法是什麼？

這時，你一定會說，從現在開始計數，最後再從照片中將每一種新物種與名單進行比較。

然而，這種常見的計數方法，有時並不適用於高達數十億條目的資訊量。

來自印度統計研究所、UNL、新加坡國立大學的電腦科學家提出了一種新演算法—CVM。

它可以近似計算長列表中，不同條目的數量，而且只需要記住少量條目就可實現。

開創性CVM演算法破解40多年計數難題！電腦科學家擲硬幣算出「哈姆雷特」獨特單字

#論文網址：https://arxiv.org/pdf/2301.10191

這個演算法適用於任何一次出現一個條目的清單，例如演講中的文字、傳送帶上的商品，或州際公路上的汽車。

CVM演算法是以三位作者首字母命名，在解決「不同元素問題」上所取得的重大進展。

而這問題，長期困擾電腦科學家40多年。

它要求有一種高效的方法來監控一個元素流（其總數可能超過可用記憶體），並估算其中獨特元素的數量。

那麼，CVM演算法究竟是如何解決問題的呢？

開創性CVM演算法，秘訣在於「隨機化」

假設你在聽《哈姆雷特》有聲書。

這部戲劇共有30557個字，有多少是不同的？

為了找到答案，你可以邊聽邊暫停，按字母順序寫下每個單詞，然後跳過清單上已有的單詞，最後，只需要數一下清單上每個單字數。

開創性CVM演算法破解40多年計數難題！電腦科學家擲硬幣算出「哈姆雷特」獨特單字

這種方法是可行的，但太考驗一個人的「記憶量」了。

研究者Vinodchandran Variyam表示，「在典型的資料流情況中，可能會有數百萬個專案需要追蹤。你可能不想把所有的資訊都儲存起來。

這就是，雲端伺服器演算法可以提供更簡單方法的地方」。

訣竅，就在於「隨機化」。

開創性CVM演算法破解40多年計數難題！電腦科學家擲硬幣算出「哈姆雷特」獨特單字

Vinodchandran Variyam幫助發明了一種估算資料流中不同元素數量的CVM演算法

「哈姆雷特」有幾個獨特字？擲硬幣大挑戰

再回到《哈姆雷特》，假設你的「有效記憶體」只能容納100個字。

一旦音訊開始播放，你記下聽到的前100個單詞，並跳過任何重複的單字。

當完成100個單字記錄後，剩下的就是為每個單字擲硬幣－

##正面，保留單字。若為反面，將其刪除。

在這一輪初選之後，你將留下大約50個不同的單字。

現在，你繼續團隊所說的第一輪遊戲Round 1，繼續閱讀《哈姆雷特》，加入新單字。

如果你再次遇到一個已經在清單上的單詞，再次擲硬幣決定，一直到你的記憶體白板中，有100個單字。

然後，根據100次擲硬幣的結果，再次隨機刪除大約一半的單字。 Round 1到此結束。

接下來，進入第二輪Round 2。

和第一輪一樣，我們要增加一個單字的難度－當你遇到重複的單字時，再擲硬幣。

條件是，如果是反面，就像之前一樣刪除它。但如果是正面，就再擲一次硬幣。只有當第二次出現正面時，才保留這個單字。

一旦記憶體白板寫滿，結束這一輪，然後根據100次拋擲結果，再次刪除大約一半的單字。

在第三輪Round 3中，你需要連續三次擲硬幣正面，才能保留一個單字。

在第四輪中，連續四次正面保留一個單詞，以此類推。

最終，在第k輪，你會聽完整部《哈姆雷特》戲劇。

這個練習的重點是，確保每個單字都有相同的出現機率：1/2 (k) 。

假設，如果在《哈姆雷特》音訊結束時，你的清單中有61個單詞，用了六輪的時間完成。

你可以用61除以機率1/2 (6)來估計不同單字的數量－最終在這個遊戲中的結果是3904個。

演算法精度與記憶體量成正比

研究人員Chakraborty、Variyam和Meel從數學上證明了CVM演算法的精確度與內存量的大小成比例。

而《哈姆雷特》剛好有3967個獨特的單字。（透過普通的計數方法）

在使用100個單字記憶體的實驗中，5輪實驗結果的平均估計為3955個單字。

在1000個單字記憶體憶量下，平均提高到3964個。

Variyam表示，「如果（內存量）大到可以容納所有單詞，那麼我們就可以達到100%的準確率」。

哈佛大學William Kuszmau表示，「這是一個很好的例子，說明即使是非常基礎和被廣泛研究過的問題，有時也可能存在簡單但並不明顯的解決方案仍待被發現」。

以上是開創性CVM演算法破解40多年計數難題！電腦科學家擲硬幣算出「哈姆雷特」獨特單字的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

PHP教程

1535

276

Related knowledge

上網404怎麼解決 Aug 12, 2025 pm 09:21 PM

如何解決上網 404 錯誤：檢查 URL 是否正確。刷新頁面。清除瀏覽器緩存：Chrome：右上角三個點 > 更多工具 > 清除瀏覽數據 > 勾選 "緩存的圖片和文件" > 清除數據Firefox：右上角三個橫線 > 選項 > 隱私與安全 > 清除歷史記錄 > 勾選 "緩存" > 確定Safari：菜

如何在幣圈用兩千本金賺百萬？短線狙擊戰法全解！ Aug 12, 2025 pm 07:00 PM

在數字貨幣的浪潮中，用有限的本金實現財富的巨大增值，是許多參與者的夢想。兩千本金，目標百萬，這並非遙不可及的神話，它需要的是一套極致的交易紀律、敏銳的市場嗅覺和冷酷的執行力。這套方法論的核心並非長期價值投資，而是一場場高強度、快節奏的短線狙擊戰。

幣圈一萬本金如何滾成百萬？這五個步驟缺一不可！ Aug 12, 2025 pm 07:03 PM

在數字貨幣的浪潮中，將一萬本金變為百萬，聽起來像是天方夜譚，但對於掌握了正確方法論的參與者而言，這並非一個完全不可能實現的路徑。這個過程充滿了風險與挑戰，它需要的不是一夜暴富的幻想，而是一套嚴謹、系統化的操作策略。這趟旅程的每一步都環環相扣，構成了從量變到質變的核心驅動力。以下五個步驟，描繪了這樣一條充滿荊棘卻又可能通往成功的道路。

全球最大的比特幣交易所幣安交易所官方網站 Aug 14, 2025 pm 01:48 PM

幣安是全球最大的加密貨幣交易所，憑藉龐大的交易深度、豐富的業務生態和高流動性，提供現貨、合約、理財及BNB Chain公鍊等全方位服務，同時通過多重安全措施和合規努力保障用戶資產安全並推動透明化發展。

幣安即將上線的WORLD3(WAI幣)是什麼？ WAI幣架構亮點、代幣經濟學及應用場景介紹 Aug 12, 2025 pm 04:21 PM

目錄WORLD3的核心願景和產品邊界是什麼？有哪些公開的進展和驗證？人工智能勞動力如何映射到WORLD3內部的實際業務中？ WORLD3與更廣泛的行業生態系統如何連接？代幣經濟學（$WAI）指導原則$WAI代幣分配分配詳情$WAI代幣實用程序歸屬和釋放時間表發佈時間表概述與同類代理平台相比，WORLD3的技術差異化體現在哪裡？開發人員應該如何集成WORLD3——他們需要構建複雜的後端嗎？最快路徑（無代碼）可擴展路徑（半定制/全定制）操作循環WORLD3的生態系統和行業背書可信嗎？主要風險和合規考慮

幣圈低本金如何高效複利？這七個方法讓你穩賺不賠！ Aug 12, 2025 pm 07:15 PM

在數字貨幣領域，本金的規模並非成功的唯一決定因素。對於低本金的參與者，掌握高效的複利策略，利用時間和策略的力量，同樣可以實現資產的穩健增值。關鍵在於採用正確的思維方式和執行嚴謹的操作紀律。以下將介紹七個核心方法，幫助低本金用戶在幣圈中穩步前行。

SatLayer(SLAY幣)是什麼?如何領取?SLAY代幣經濟與未來潛力分析 Aug 14, 2025 pm 12:09 PM

目錄什麼是SatLayer什麼是SLAY代幣SatLayer(SLAY)空投領取SatLayer(SLAY)價格預測SatLayer CubeSatLayerAcesBabylon SatLayerSatLayer路線圖SatLayer正在引領比特幣重新質押趨勢，通過其比特幣驗證服務(BVS)機制擴大實用性並提供可持續收益。幣安Alpha將在8月11日成為首個上線SatLayer（SLAY）