Seperti tajuk, fungsi yang lebih mudah ialah bagaimana mengira kekerapan perkataan dokumen pembangunan Bahasa InggerisAPI? (Dokumen itu mungkin berbilang fail html, atau mungkin fail chm, bukan teks txt mudah
).Keperluan yang lebih rumit ialah kerana dokumen pembangunan melibatkan banyak nama kelas, fungsi atau nama kaedah, dsb., perkataan mungkin disambungkan bersama, dan sebaiknya diasingkan apabila mengira (Ini boleh dipisahkan mengikut peraturan penamaan ) ;
Keperluan yang lebih rumit ialah, kerana hanya mengira kekerapan perkataan dokumen tidak mempunyai banyak kepentingan praktikal, cara memproses semula perkataan yang dikira:
Singkirkan beberapa perkataan mudah yang mempunyai sedikit makna untuk pembangunan, seperti, adalah, kepada, adalah...
Analisis kata nama profesional yang berkaitan dengan komputer, perkataan dengan makna khusus dalam pengaturcaraan, atau kata kunci bahasa pengaturcaraan (melibatkan bahasa berbeza yang sepadan dengan dokumen
Anotasi penjelasan untuk perkataan akhir yang dianalisis (Bahasa Cina, melalui API pihak ketiga)...
Jika anda membangunkan perisian dengan fungsi di atas, apakah teknologi khusus yang diperlukan? Selamat datang untuk memberikan idea anda...
Well, sebenarnya sakit hati saya ialah apabila membaca dokumen bahasa Inggeris, terdapat terlalu banyak perkataan yang saya tidak faham, saya sering perlu mencari perkataan, yang terlalu tidak cekap menganalisis perbendaharaan kata dokumen, Anda boleh membiasakan diri dengan maksud perbendaharaan kata sebelum membaca dokumen untuk meningkatkan kecekapan dan penamaan juga membantu untuk pembangunan...
Catatan untuk pengubahsuaian:
Memisahkan perkataan yang disambungkan memang bukan teknologi segmentasi perkataan saya salah cakap dulu;
Idea saya tentang menggunakan pembelajaran mesin yang disebut dalam soalan asal ialah ini: perisian dengan pembelajaran mesin membaca banyak dokumen pembangunan pengaturcaraan, mengetahui istilah profesional di dalamnya dan menjadikan pelaksanaan keseluruhan fungsi lebih pintar... Sudah tentu ini hanya imaginasi saya, mungkin tidak betul, jangan kecam jika anda tidak menyukainya;
Akhirnya, masalah yang saya nyatakan tentang membaca dokumen Bahasa Inggeris, setiap orang mempunyai tahap di mana mereka tidak dapat memahaminya pada mulanya dan kecekapan mereka adalah rendah Siapa yang tidak tahu bahawa jika anda membaca lebih banyak, kecekapan anda akan meningkat secara beransur-ansur. Semua orang tahu kebenarannya...Tetapi, ini bukan fokus perbincangan kita, saya cuma ada idea ini dan mengemukakannya untuk dibincangkan semua
Selain itu, jika soalan yang anda ajukan salah, anda boleh meninggalkan mesej dan saya akan mengubahnya. Bolehkah anda tidak menolaknya?
Bersedia untuk peperiksaan kemasukan pasca siswazah, saya sudah lama tidak menulis kod, tetapi idea umum sepatutnya:
Pembersihan dan penapisan: Untuk HTML, mula-mula tapis kandungan Anda boleh menulis peraturan biasa anda sendiri atau mencari beberapa yang ditulis oleh orang lain
Pembahagian perkataan: Mula-mula tapis perkataan menggunakan pembatas biasa seperti ruang, dan kemudian cari perkataan satu demi satu mengikut konvensyen penamaan bahasa yang berbeza
Tapis perkataan biasa: Anda sepatutnya dapat mencari fail perkataan Inggeris biasa di Internet dan memadankannya
WordCount: Anda hanya boleh menggunakan python untuk melaksanakan penapisan MapReduce sendiri, atau anda juga boleh menggunakan Hadoop, Spark, dll.
Ini melengkapkan statistik perkataan untuk menapis perkataan mudah Mengenai pengiraan perkataan berkaitan komputer, anda perlu memuat turun fail data perkataan berkaitan komputer dalam talian dan memadankannya secara terus Jika anda perlu memberi penjelasan, hubungi Youdao atau Baidu Translate. API adalah mencukupi, tetapi API ini mungkin mempunyai had atas, dan saya belum menggunakannya.
Bagi pembelajaran mesin yang anda nyatakan, keperluan di sini tidak diperlukan pada masa ini dan tidak perlu menggunakannya.Langkah di atas tidak mengambil kira isu kecekapan Jika anda perlu mempertimbangkan isu kecekapan, anda perlu menggunakan beberapa algoritma atau terus menggunakan perpustakaan kelas yang ditulis oleh orang lain.
Akhir sekali: Saya masih ingin mengatakan bahawa cara terpantas untuk memahami dokumen adalah dengan membaca lebih banyak dokumen Jika anda terus membaca, anda akan mendapati bahawa kelajuan membaca dokumen akan menjadi lebih cepat dan lebih pantas. Walau bagaimanapun, menganggap ini sebagai projek latihan boleh dianggap sebagai melakukan sesuatu yang menarik.
Pembelajaran mesin yang anda nyatakan pada masa ini secara amnya diselia dan tidak diselia, tetapi menurut sebutan anda:
Jika anda menggunakan pembelajaran yang diselia, anda pasti memerlukan sokongan data korpus Jika anda sudah mempunyai data korpus, mengapa tidak terus menggunakan pemadanan rentetan untuk melaksanakannya?
Apabila menggunakan pembelajaran tanpa pengawasan, saya masih pemula Mengikut pemahaman saya, nampaknya ia hanya boleh mencapai kesan pengelompokan Jika anda ingin mengenal pasti istilah komputer secara automatik, anda masih memerlukan anotasi manual atau sokongan data
-
Jika anda pergi lebih jauh, anda perlu belajar NLP dengan teliti
Saya rasa anda berminat dengan pembelajaran mesin, tetapi saya rasa ini bukan projek yang baik untuk mempraktikkan pembelajaran mesin.
Ini tidak boleh dipanggil segmentasi perkataan Bahasa Inggeris harus merujuk kepada pembahagian mengikut komponen ayat. Nama pembolehubah yang disambungkan bersama boleh dikenal pasti melalui kaedah penamaan biasa, seperti Camel-Case dalam huruf besar dan kecil, Garis bawah dipisahkan dengan garis bawah, dsb.
Anda boleh menemui pelbagai perpustakaan Word Splitting untuk pembahagian perkataan, dan sepatutnya terdapat banyak dalam python. Muat turun leksikon kata nama profesional komputer, ekstrak perkataan dan padankan dengan leksikon untuk mendapatkan makna.
Tetapi sebenarnya, walaupun ia dibuat, ia mungkin tidak semestinya memudahkan untuk membaca dengan melihat sahaja perkataan itu mempunyai sedikit lengkung untuk menyelamatkan negara, dan kemungkinan besar anda tidak akan dapat membaca. ia sama sekali. Perbendaharaan kata artikel komputer tidak begitu besar Setelah ia biasa, ia akan menjadi biasa dua kali Adalah lebih baik untuk mengoptimumkan pengalaman carian perkataan Adalah disyorkan untuk menggunakan penyelesaian dua collins dengan kamus Macmillan, MDict atau Oulu untuk memuatkannya. . Chrome juga boleh memasang Saladict untuk mencari perkataan.