目次
1. 要件の説明" >1. 要件の説明
2. 論理的な並べ替え" >2. 論理的な並べ替え
三、代码实现" >三、代码实现
ホームページ バックエンド開発 Python チュートリアル Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

Aug 09, 2023 pm 05:37 PM
python 翻訳する


この記事では、実践的な Python オフィス オートメーション スクリプトを紹介します

「Python を使用して英語の Word 文書をバッチ翻訳し、形式を保持します」、最終的な効果は一部の有料ソフトウェアよりもさらに優れています。まずは具体的な仕事内容を見ていきましょう。

1. 要件の説明

手元に大量の外国語のドキュメントがあります (このケースでは

5 を例として取り上げます)。 test1 .docx test2.docx などの名前が付いています)。そのうちの 1 つは次のとおりです: Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

基本要件 : 「これらのドキュメントを一括処理します。すべての内容が中国語に翻訳され、新しいファイルに転送されます。」、結果は次のようになります: Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

高度な要件:基本的なニーズが満たされている、要件『元の文書の形式を維持する』、結果は次のとおりです:Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

2. 論理的な並べ替え

1 . 翻訳 API

この要件の核心は

Translation です。戦略は、次の翻訳 API を使用することです。 ここではBaidu Translation Open Platformを推奨します 同時実行数を考慮しない場合に使用できます 標準バージョン、文字数制限なしで無料で使用できます !

Baidu 翻訳オープン プラットフォーム: http://api.fanyi.baidu.com/api/trans/product/index

#Baidu のユニバーサル翻訳 API を使用する前に、次のタスクを完了する必要があります。

  1. Baidu アカウントを使用してログインします。 Baidu 翻訳オープン プラットフォーム (
    http://api.fanyi.baidu.com);
  2. 開発者として登録し、APPID を取得します;
  3. # 開発者認定を実施します (標準バージョンのみが必要な場合はスキップできます)。
  4. #ユニバーサル翻訳 API サービスを開きます: アクティベーション リンク
  5. 技術ドキュメントを参照してください。デモでコードを作成します。
##完了後、画面上に ID とキーが表示されます。個人ページ. これはとても重要です!
コンパイルされたユニバーサル翻訳 API のデモを以下に示します。出力は単純に変更されており、コードは使用できます。 Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

テスト コンテンツが正確に翻訳されていることがわかります。API に複数回アクセスする必要がある場合、無料版には同時実行性と時間制限があることに注意してください。 Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?time Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い? モジュールは 1 秒間スリープします

2. 形式の変更

高度な要件の難しさは、 format. 簡単に言うとoriginal 文書のページ形式と段落形式とは何か、また翻訳後の対応部分は何か。

上記の論理関係に基づいて、元の文書の対応するコンテンツを取得し、それを新しく翻訳された文書に割り当てるだけで済みます。 (当面はページ設定と段落設定の統一のみ対応可能です。段落内の特定の単語の書式変更については精度を確保するために自然言語処理NLPが必要ですが、本記事では扱いません)

2.1 ページ スタイル

ページ スタイルには、元の文書からわかるように、余白、方向、高さ、幅などを含める必要があるだけです。 , 以下は狭幅です。ただし、4 方向の狭いマージンの設定方法を知る必要はなく、次のようにコード内で新旧ドキュメントの変数転送を示すだけで済みます。 Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?2.2 段落スタイル

段落スタイルには、配置、インデント、スペースなどが含まれます。元の文書では、段落後のインデントが採用され、タイトルは中央に配置されます。これらの設定は変数の受け渡しでうまく行うことができます。元の文書に設定されていない変数値が None

Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?の場合2.3 テキストブロックのスタイル変更

フォント サイズ、太字、斜体、色などのスタイルを調整するために採用される戦略は、空のリストを作成し、元の文書の各段落の各テキスト ブロックを走査し、対応する属性を取得してそれらをその属性に配置するという です。それぞれのリスト 、および同じ段落の場合 たとえば、最も多くのテキスト ブロック属性を含むオプションが、翻訳された文書の対応する段落に割り当てられます (段落内のすべてまたは大部分のテキストが太字の場合、すべてのテキストが太字になります)翻訳後の対応する段落内のブロックは太字に設定されます) NLP に興味のある読者は、英語文書内の特定の単語のスタイル変更を高度に復元し、翻訳文書に反映する方法を自分で試すことができます。

上記のコードにはフォント設定が含まれていません。英語のフォントを中国語のドキュメントに渡す必要がないからです。中国語フォントの設定については、以前の記事で説明しました。比較的複雑です。コードを直接参照してください:

from docx.oxml.ns import qn

run.font.name = '微软雅黑'
r = run._element.rPr.rFonts
r.set(qn('w:eastAsia'), '微软雅黑')
Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

##3. 全体的な実装手順

これで操作の各部分が完了しました。この例では翻訳する必要があるドキュメントが複数あることを考慮すると、全体のロジックは次のようになります:
  1. 利用 glob 模块批处理框架可获取某个文件的绝对路径
  2. python-docx 完成 Word 文件实例化后对段落进行解析
  3. 解析出的段落文本交给百度通用翻译 API,解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件
  4. 同个文件全部解析、翻译并写入新文件后保存文件

三、代码实现

导入需要的模块,除翻译 demo 中需要的库外还需要 glob 库批量获取文件、python-docx 读取文件、time 模块控制访问并发。为什么要 os 模块见下文:

import requests
import random
import json
from hashlib import md5
import time
from docx import Document
import glob
import os

对原 demo 的部分内容进行保留,涉及到 query 参数的代码需要移动到后面的循环中。保留的部分:Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

效果如下Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

获取到段落文本后,可以将段落文本赋值给 query 参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph 将结果写入新文档:Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename 方法获取并经字符串拼接达到目的:

wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')
Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

代码运行完毕后得到五个新的翻译后文件Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!Pythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?

至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!

以上がPythonで書かれた文書一括翻訳ツール、効果は有料ソフトより高い?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Stock Market GPT

Stock Market GPT

AIを活用した投資調査により賢明な意思決定を実現

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ホットトピック

pythonでrequastion.txtファイルからパッケージをインストールする方法 pythonでrequastion.txtファイルからパッケージをインストールする方法 Sep 18, 2025 am 04:24 AM

Pipinstall-rrequirements.txtを実行して、依存関係パッケージをインストールします。競合を回避し、ファイルパスが正しく、PIPが更新されていることを確認し、必要に応じて-no-depsや-userなどのオプションを使用して、必要に応じてインストール動作を調整することを確認して、最初に仮想環境を作成およびアクティブ化することをお勧めします。

PytestでPythonコードをテストする方法 PytestでPythonコードをテストする方法 Sep 20, 2025 am 12:35 AM

Pythonは、Pythonのシンプルで強力なテストツールです。インストール後、命名ルールに従ってテストファイルが自動的に発見されます。アサーションテストのためにtest_から始まる関数を書き込み、 @pytest.fixtureを使用して再利用可能なテストデータを作成し、pytest.raisesを使用して例外を確認し、指定されたテストと複数のコマンドラインオプションをサポートし、テスト効率を改善します。

Pythonのコマンドライン引数を処理する方法 Pythonのコマンドライン引数を処理する方法 Sep 21, 2025 am 03:49 AM

theargparsemoduleisttherecommendedwayto handlecommand-lineargumentsinpython、robustparsing、typevalidation、helpmessages、およびerrorhandling; ousesys.argvforsimplecasesrequiringminimalsetup。

bipとは何ですか?なぜ彼らはビットコインの未来にとってそれほど重要なのですか? bipとは何ですか?なぜ彼らはビットコインの未来にとってそれほど重要なのですか? Sep 24, 2025 pm 01:51 PM

目次ビットコイン改善提案(BIP)とは何ですか?なぜBIPがそんなに重要なのですか?歴史的なBIPプロセスは、ビットコイン改善提案(BIP)でどのように機能しますか? BIPタイプの信号とは何ですか?鉱夫はそれをどのように送りますか? TaprootとBIP結論のクイックトライアルの短所は、2011年以来、ビットコイン改善提案または「BIP」と呼ばれるシステムを通じて行われています。ビットコイン改善提案(BIP)は、ビットコインが一般的に開発する方法のガイドラインを提供します。BIPには3つのタイプがあります。そのうち2つはビットコインの技術的変化に関連しています各BIPは、TWIを含むどこにでも集まるビットコイン開発者の間で非公式の議論から始まります。

初心者から専門家まで:10必要のない無料のパブリックデータセットWebサイト 初心者から専門家まで:10必要のない無料のパブリックデータセットWebサイト Sep 15, 2025 pm 03:51 PM

データサイエンスの初心者にとって、「経験不足」から「業界の専門家」への飛躍の核心は継続的な実践です。実践の基礎は、豊かで多様なデータセットです。幸いなことに、インターネット上には無料のパブリックデータセットを提供する多数のWebサイトがあります。これは、スキルを向上させ、スキルを磨くための貴重なリソースです。

Pythonの@ContextManagerデコレーターを使用してコンテキストマネージャーを作成するにはどうすればよいですか? Pythonの@ContextManagerデコレーターを使用してコンテキストマネージャーを作成するにはどうすればよいですか? Sep 20, 2025 am 04:50 AM

@ContextManagerFromContextLibandDefineAgeneratoratoraturationは、sexactlyOnceを使用します

ビッグデータ分析に適したコンピューターを選択する方法は?高性能コンピューティング用の構成ガイド ビッグデータ分析に適したコンピューターを選択する方法は?高性能コンピューティング用の構成ガイド Sep 15, 2025 pm 01:54 PM

ビッグデータ分析では、マルチコアCPU、大容量メモリ、階層型ストレージに焦点を当てる必要があります。 AmdepycやRyzenthreadripperなどのマルチコアプロセッサが優先され、コアの数とシングルコアの性能を考慮しています。メモリは64GBで始まるように推奨され、データの整合性を確保するためにECCメモリが推奨されます。ストレージは、NVMESSD(システムとホットデータ)、SatAssD(共通データ)、およびHDD(コールドデータ)を使用して、全体的な処理効率を改善します。

Pythonで毎日のタスク用の自動化スクリプトの書き方 Pythonで毎日のタスク用の自動化スクリプトの書き方 Sep 21, 2025 am 04:45 AM

repetitivetaskswsortomating、sosorganizingfilessorsendingningtumails、focusingonthosethatoccurfrequellyandtakesifatipime.2.useapsupratepythonlibrarieslikes、shotil、glob、smtplib、requests、beautifulsoup、anseleniumforferation、email、w

See all articles