Artikel ini akan berkongsi dengan anda skrip automasi pejabat Python praktikal
"Gunakan Python untuk Batch menterjemahkan dokumen perkataan Inggeris dan memelihara format". perisian! Mari kita lihat kandungan kerja tertentu terlebih dahulu. 1. Penerangan keperluan
Saya mempunyai sejumlah besar dokumen bahasa asing di tangan (dalam kes ini, kami mengambil 5
dokumen sebagai contoh, bernama dan sebagainya), salah satunya adalah seperti berikut :
Keperluan asas
:
"Terjemah semua kandungan dokumen ini ke dalam bahasa Cina secara berkelompok dan pindahkannya ke fail baharu" , kesannya adalah seperti berikut:
Keperluan lanjutan : Manakala keperluan asas test1.docxtest2.docx dipenuhi, keperluan "pelihara format dokumen asal"
, kesannya adalah seperti berikut:
2. Pengisihan logik
1. API Terjemahan keperluan ini adalah teras Terjemahan, strateginya ialah menggunakan API terjemahan rangkaian,
di sini kami mengesyorkan Baidu Translation Open Platform, Jika anda tidak mempertimbangkan bilangan pengguna serentak, anda boleh menggunakan versi standard, yang percuma dan tidak mempunyai karakter had
!
“
Baidu Translation Open Platform: http: //api.fanyi.baidu.com/api/trans/product/indexhttp://api.fanyi.baidu.com/api/trans/product/index
”
在使用百度的通用翻译 API 之前需要完成以下工作:
使用百度账号登录百度翻译开放平台(http://api.fanyi.baidu.com);
注册成为开发者,获得APPID;
进行开发者认证(如仅需标准版可跳过);
开通通用翻译API服务:开通链接
参考技术文档和Demo编写代码
完成后在个人页面在即可看到 ID 和密钥,这个很重要!下面给出整理好的通用翻译 API 的 demo,已经对输出做简单修改,代码拿走就能用!
可以看到,测试内容准确的被翻译出来,注意如果需要多次访问 API,免费版有并发数和时间限制,可以用 time
”
Kerja berikut perlu disiapkan sebelum menggunakan API terjemahan universal Baidu:Gunakan akaun Baidu untuk log masuk ke Baidu Translation Open Platform ( http://api.fanyi.baidu.com code>) ;
Daftar sebagai Pembangun, dapatkan
Lakukan pensijilan pembangun (anda boleh melangkaunya jika anda hanya mahu versi standard);
Buka perkhidmatan API terjemahan universal: buka pautan
Rujuk dokumentasi teknikal dan Demo untuk menulis kod
Selepas selesai, anda boleh melihat ID dan kunci pada halaman peribadi. penting! Demonstrasi API terjemahan universal yang disusun diberikan di bawah Output telah diubah suai secara ringkas, dan kod itu boleh digunakan!
Anda dapat melihat bahawa kandungan ujian diterjemahkan dengan tepat. Ambil perhatian bahawa jika anda perlu mengakses API beberapa kali, versi percuma mempunyai kesesuaian dan had masa , anda boleh menggunakan masa Modul tidur selama satu saat
🎜2. Pengubahsuaian format🎜🎜🎜Kesukaran dengan keperluan lanjutan adalah untuk mengekalkan format🎜Apakah format halaman dan format perenggan dokumen asal, dan apakah bahagian yang sepadan selepas terjemahan. 🎜🎜🎜Berdasarkan hubungan logik di atas, anda hanya perlu mendapatkan kandungan dokumen asal yang sepadan dan menyerahkannya kepada dokumen yang baru diterjemahkan. (Buat masa ini, ia hanya boleh memenuhi penyatuan tetapan halaman dan tetapan perenggan. Untuk pengubahsuaian format perkataan tertentu dalam perenggan, memastikan ketepatan memerlukan pemprosesan bahasa semula jadi NLP, yang tidak diliputi dalam artikel ini.) 🎜
2.1 Gaya halaman
Gaya halaman hanya perlu memasukkan jidar, arah, ketinggian, lebar, dll. Seperti yang anda boleh lihat daripada dokumen asal, jidar sempit diterima pakai. Tetapi kita tidak perlu tahu cara menetapkan empat arah margin sempit Kita hanya perlu membentangkan pemindahan berubah-ubah dokumen lama dan baharu dalam kod, seperti berikut
2.2 Gaya perenggan
. Gaya perenggan termasuk penjajaran, lekukan, Jarak, dsb. diinden selepas perenggan dalam dokumen asal dan tajuk ditengahkan. Tetapan ini boleh dilakukan dengan baik dalam hantaran berubah-ubah. Jika nilai pembolehubah yang tidak ditetapkan dalam dokumen asal ialah None
2.3 Pengubahsuaian gaya blok teks
Untuk pelarasan gaya seperti saiz fon, tebal, condong, warna, dsb., strategi yang digunakan adalah untuk buat senarai kosong dan rentasi dokumen asal Untuk setiap blok teks dalam setiap perenggan, atribut yang sepadan diperoleh dan diletakkan dalam senarai masing-masing Untuk perenggan yang sama, pilihan dengan atribut blok teks yang paling banyak diberikan kepada perenggan yang sepadan dokumen terjemahan (seperti semua atau sebahagian besar perenggan) Jika teks tebal, semua blok teks perenggan yang sepadan akan ditetapkan kepada tebal selepas terjemahan)
Pembaca yang berminat dengan NLP boleh cuba memulihkan pengubahsuaian gaya perkataan tertentu tertentu dalam dokumen bahasa Inggeris ke tahap yang tinggi dan mencerminkannya dalam dokumen terjemahan
Kod di atas tidak termasuk tetapan fon, kerana tidak perlu menukar Bahasa Inggeris Fon diserahkan kepada dokumen Cina. Tetapan fon Cina telah disebutkan dalam artikel sebelum ini terdapat banyak Setiap dokumen perlu diterjemahkan, jadi keseluruhan logik adalah seperti berikut:
Atas ialah kandungan terperinci Alat terjemahan kumpulan dokumen yang ditulis dalam Python, kesannya lebih baik daripada perisian berbayar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn