Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?
「Python を使用して英語の Word 文書をバッチ翻訳し、形式を保持します」、最終的な効果は一部の有料ソフトウェアよりもさらに優れています。まずは具体的な仕事内容を見ていきましょう。
手元に大量の外国語のドキュメントがあります (このケースでは
5 を例として取り上げます)。 test1 .docx
test2.docx などの名前が付いています)。そのうちの 1 つは次のとおりです:
基本要件 : 「これらのドキュメントを一括処理します。すべての内容が中国語に翻訳され、新しいファイルに転送されます。」、結果は次のようになります:
高度な要件:基本的なニーズが満たされている、要件『元の文書の形式を維持する』、結果は次のとおりです:
1 . 翻訳 API
この要件の核心はTranslation です。戦略は、次の翻訳 API を使用することです。 ここではBaidu Translation Open Platformを推奨します 同時実行数を考慮しない場合に使用できます 標準バージョン、文字数制限なしで無料で使用できます !
「#Baidu のユニバーサル翻訳 API を使用する前に、次のタスクを完了する必要があります。Baidu 翻訳オープン プラットフォーム:
”http://api.fanyi.baidu.com/api/trans/product/index
- Baidu アカウントを使用してログインします。 Baidu 翻訳オープン プラットフォーム (
http://api.fanyi.baidu.com );
- 開発者として登録し、APPID を取得します;
- #ユニバーサル翻訳 API サービスを開きます: アクティベーション リンク
- 技術ドキュメントを参照してください。デモでコードを作成します。

テスト コンテンツが正確に翻訳されていることがわかります。API に複数回アクセスする必要がある場合、無料版には同時実行性と時間制限があることに注意してください。 time
モジュールは 1 秒間スリープします
高度な要件の難しさは、 format. 簡単に言うとoriginal 文書のページ形式と段落形式とは何か、また翻訳後の対応部分は何か。
上記の論理関係に基づいて、元の文書の対応するコンテンツを取得し、それを新しく翻訳された文書に割り当てるだけで済みます。 (当面はページ設定と段落設定の統一のみ対応可能です。段落内の特定の単語の書式変更については精度を確保するために自然言語処理NLPが必要ですが、本記事では扱いません) ページ スタイルには、元の文書からわかるように、余白、方向、高さ、幅などを含める必要があるだけです。 , 以下は狭幅です。ただし、4 方向の狭いマージンの設定方法を知る必要はなく、次のようにコード内で新旧ドキュメントの変数転送を示すだけで済みます。 上記のコードにはフォント設定が含まれていません。英語のフォントを中国語のドキュメントに渡す必要がないからです。中国語フォントの設定については、以前の記事で説明しました。比較的複雑です。コードを直接参照してください:
2.1 ページ スタイル
2.2 段落スタイル
段落スタイルには、配置、インデント、スペースなどが含まれます。元の文書では、段落後のインデントが採用され、タイトルは中央に配置されます。これらの設定は変数の受け渡しでうまく行うことができます。元の文書に設定されていない変数値が
の場合2.3 テキストブロックのスタイル変更
フォント サイズ、太字、斜体、色などのスタイルを調整するために採用される戦略は、空のリストを作成し、元の文書の各段落の各テキスト ブロックを走査し、対応する属性を取得してそれらをその属性に配置するという
、および同じ段落の場合 たとえば、最も多くのテキスト ブロック属性を含むオプションが、翻訳された文書の対応する段落に割り当てられます (段落内のすべてまたは大部分のテキストが太字の場合、すべてのテキストが太字になります)翻訳後の対応する段落内のブロックは太字に設定されます)
NLP に興味のある読者は、英語文書内の特定の単語のスタイル変更を高度に復元し、翻訳文書に反映する方法を自分で試すことができます。from docx.oxml.ns import qn
run.font.name = '微软雅黑'
r = run._element.rPr.rFonts
r.set(qn('w:eastAsia'), '微软雅黑')
##3. 全体的な実装手順
利用 glob
模块批处理框架可获取某个文件的绝对路径 由 python-docx
完成 Word 文件实例化后对段落进行解析 解析出的段落文本交给百度通用翻译 API,解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件 同个文件全部解析、翻译并写入新文件后保存文件
三、代码实现
glob
模块批处理框架可获取某个文件的绝对路径python-docx
完成 Word 文件实例化后对段落进行解析导入需要的模块,除翻译 demo 中需要的库外还需要 glob
库批量获取文件、python-docx
读取文件、time
模块控制访问并发。为什么要 os
模块见下文:
import requests import random import json from hashlib import md5 import time from docx import Document import glob import os
对原 demo 的部分内容进行保留,涉及到 query
参数的代码需要移动到后面的循环中。保留的部分:
效果如下
获取到段落文本后,可以将段落文本赋值给 query
参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph
将结果写入新文档:
最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename
方法获取并经字符串拼接达到目的:
wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')

单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:
完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:
代码运行完毕后得到五个新的翻译后文件
翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!
至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!
以上がPythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undress AI Tool
脱衣画像を無料で

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Stock Market GPT
AIを活用した投資調査により賢明な意思決定を実現

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

Pipinstall-rrequirements.txtを実行して、依存関係パッケージをインストールします。競合を回避し、ファイルパスが正しく、PIPが更新されていることを確認し、必要に応じて-no-depsや-userなどのオプションを使用して、必要に応じてインストール動作を調整することを確認して、最初に仮想環境を作成およびアクティブ化することをお勧めします。

Pythonは、Pythonのシンプルで強力なテストツールです。インストール後、命名ルールに従ってテストファイルが自動的に発見されます。アサーションテストのためにtest_から始まる関数を書き込み、 @pytest.fixtureを使用して再利用可能なテストデータを作成し、pytest.raisesを使用して例外を確認し、指定されたテストと複数のコマンドラインオプションをサポートし、テスト効率を改善します。

theargparsemoduleisttherecommendedwayto handlecommand-lineargumentsinpython、robustparsing、typevalidation、helpmessages、およびerrorhandling; ousesys.argvforsimplecasesrequiringminimalsetup。

目次ビットコイン改善提案(BIP)とは何ですか?なぜBIPがそんなに重要なのですか?歴史的なBIPプロセスは、ビットコイン改善提案(BIP)でどのように機能しますか? BIPタイプの信号とは何ですか?鉱夫はそれをどのように送りますか? TaprootとBIP結論のクイックトライアルの短所は、2011年以来、ビットコイン改善提案または「BIP」と呼ばれるシステムを通じて行われています。ビットコイン改善提案(BIP)は、ビットコインが一般的に開発する方法のガイドラインを提供します。BIPには3つのタイプがあります。そのうち2つはビットコインの技術的変化に関連しています各BIPは、TWIを含むどこにでも集まるビットコイン開発者の間で非公式の議論から始まります。

データサイエンスの初心者にとって、「経験不足」から「業界の専門家」への飛躍の核心は継続的な実践です。実践の基礎は、豊かで多様なデータセットです。幸いなことに、インターネット上には無料のパブリックデータセットを提供する多数のWebサイトがあります。これは、スキルを向上させ、スキルを磨くための貴重なリソースです。

@ContextManagerFromContextLibandDefineAgeneratoratoraturationは、sexactlyOnceを使用します

ビッグデータ分析では、マルチコアCPU、大容量メモリ、階層型ストレージに焦点を当てる必要があります。 AmdepycやRyzenthreadripperなどのマルチコアプロセッサが優先され、コアの数とシングルコアの性能を考慮しています。メモリは64GBで始まるように推奨され、データの整合性を確保するためにECCメモリが推奨されます。ストレージは、NVMESSD(システムとホットデータ)、SatAssD(共通データ)、およびHDD(コールドデータ)を使用して、全体的な処理効率を改善します。

repetitivetaskswsortomating、sosorganizingfilessorsendingningtumails、focusingonthosethatoccurfrequellyandtakesifatipime.2.useapsupratepythonlibrarieslikes、shotil、glob、smtplib、requests、beautifulsoup、anseleniumforferation、email、w
