-
- [root@localhost ~]# mkdir -p /lcf/upan
- [root@localhost ~]# mkdir -p /lcf/cdrom
- [root@localhost ~]# mkdir -p /lcf/xpdf
- [root@localhost ~]# cd /lcf/upan/
- [root@localhost upan]# cp xpdf/* ../xpdf/ (ダウンロードしたファイルは /lcf/xpdf ディレクトリに配置されます)
- [root@localhost upan] ]# cd ../xpdf/
- [root@localhost xpdf]# tar -zxvf xpdfbin-linux-3.03.tar.gz
- [root@localhost xpdf]# cd xpdfbin-linux-3.03
- [root@localhost xpdfbin-linux -3.03 ]# cat INSTALL
- [root@localhost xpdfbin-linux-3.03]# cd bin32/
- [root@localhost bin32]# cp ./* /usr/local/bin/
- [root@localhost bin32]# cd . ./ doc/
- [root@localhost doc]# mkdir -p /usr/local/man/man1
- [root@localhost doc]# mkdir -p /usr/local/man/man5
- [root@localhost doc]# cp * .1 /usr/local/man/man1
- [root@localhost doc]# cp *.5 /usr/local/man/man5
コードをコピー
中国語を読む必要がない場合は、ここに行ってください。これで終わりです。必要に応じて続けましょう。
-
- [root@localhost doc]# cp sample-xpdfrc /usr/local/etc/xpdfrc
- [root@localhost xpdf]# cd /lcf/xpdf
- [root@localhost xpdf]# tar -zxvf xpdf -chinese-simplified.tar.gz
- [root@localhost xpdf]# cd xpdf-簡体字中国語
- [root@localhost xpdf]# mkdir -p/usr/local/share/xpdf/簡体字中国語
- [root@localhost xpdf]# cd xpdf-chinese-simplified/
- [root@localhost xpdf-chinese-simplified]# cp Adobe-GB1.cidToUnicode ISO-2022-CN.unicodeMap EUC-CN.unicodeMap GBK.unicodeMap CMAP /usr/local/share /xpdf/chinese-simplified/
コードをコピー
簡体字中国語のファイル add-to-xpdfrc の内容を /usr/local/etc/xpdfrc ファイルにコピーします。内部のパスは正しい必要があることに注意してください。 (ここでの簡体字中国語パッケージには ISO-2022-CN、EUC-CN、GBK の 3 つの形式が含まれていることに注意してください。UTF-8 はサポートされていないことをよく見てください。最初に GBK に変換してからエスケープできます)
3. 機能の実装
この時点で、すべての設定が完了したので、使用を開始します。
単純な PDF の読み取りの場合は、次のステートメントを使用するだけです。
$content = shell_exec('/usr/local/bin/pdftotext '.$ファイル名.' -');
中国語に変換する必要がある場合は、次のようなパラメータを追加します。
$content = shell_exec('/usr/local/bin/pdftotext -layout -enc GBK '.$filename.' -');
もちろん、パラメータを追加しても英語変換には影響しませんので、安心してご利用ください。ここで転送されるのは GBK エンコードであることに注意してください。現在、多くの Web サイトでは文字化けを回避したい場合は、UTF-8 を再度エスケープする必要があります。
$content = mb_convert_encoding($content, 'UTF-8','GBK');
読み取った内容は自分でコードを書くことで加工することができます。
pdftotext の主なパラメータ:
オプション
次のオプションの多くは、構成ファイル com を使用して設定できます。
これらは角括弧内に説明とともにリストされています。
対応するコマンドラインオプション。
-f 番号
変換する最初のページを指定します。
-l 番号
変換する最後のページを指定します。
-レイアウト
元の物理レイアウトを(可能な限り)維持します。
デフォルトでは、物理的なレイアウト (列、
ハイフネーションなど) を入力し、読み上げ順にテキストを出力します。
-固定番号
指定された文字を持つ固定ピッチ (または表形式) テキストを想定します。
ter width (ポイント単位)。これにより、物理レイアウト モードが強制されます。
-raw テキストをコンテンツ ストリームの順序に保ちます。これはハックです。
列の書式設定などを「元に戻す」ことがよくあります。 raw モードの使用は禁止されています。
より長く推奨されます。
-htmlメタ
メタ情報を含む単純な HTML ファイルを生成します。
これは単純にテキストを
でラップし、先頭に
メタヘッダー。
-enc エンコーディング名 |