python - 如何統計一份英文 API 開發文件（如 javadoc文件）的詞頻？

Question

如題，簡單一點的功能是如何對一份英文 API 開發文件進行詞頻的統計？ （文件可能是多個 html 文件，也可能是 chm 文件，不是簡單的 txt 文字）； 複雜一點的需求是，因為開發文件涉及很多類別名稱、函數或方法名稱等，...

世界只因有你 · Answer

準備考研，很久沒寫過程式碼了，不過大概思路應該是：

到此為止就完成了過濾簡單詞的單詞統計了
關於統計出計算機相關詞，你需要網上下載計算機相關詞彙的數據文件，直接匹配即可
需要給出解釋的話，調用有道、百度翻譯的api即可，不過這些API可能有次數上限，我沒用過。

以上所說步驟都沒有考慮效率的問題，如果需要考慮效率問題，還需要使用到些演算法或直接使用別人寫好的類別庫。
關於你所說到的機器學習，這裡的需求暫時不需要、且沒必要使用到。

最後：我還是想說，想讀懂文檔的最快的辦法就是多讀文檔，堅持讀下來，你會發現讀文檔的速度會越來越快。不過把這個當成練手的項目，也算是做了點有趣的事情。

關於問題修改後的回應：
你提及的機器學習，目前大體上是有監督式和非監督式，但根據你的提及：

一個具有機器學習的軟體大量閱讀程式設計的開發文檔，找出裡面的專業術語，使整個功能的實現更加智能化…

我覺得你好像對機器學習感興趣，但我感覺這個不是機器學習練手的一個好項目。

淡淡烟草味 · Answer

這個應該不叫英語分詞，分詞應該指以句子成分來劃分。連在一次的變數名稱可以考慮以常見的命名方式識別，例如大小寫的Camel-Case、底線分割的 Underscores 等。

分詞可以找各種 Word Splitting 函式庫，python 應該有很多。計算機的專業名詞下載詞庫，單字提取後跟詞庫匹配得到釋義。

但其實即使做出來也不一定能更方便閱讀，光看單字有點曲線救國的感覺，很可能根本看不進去。電腦文章的詞彙量不多，一回生兩回熟，優化查詞體驗比較妥，推薦 collins雙解結合 Macmillan ，MDict 或歐路字典都可以載入。 Chrome 也可以裝 Saladict 沙拉查詞。