CSSフォントファミリーを使用してHTML文字列を抽出するためのPythonライブラリ?

Question

CSSのfont-family属性を使用してHTML文字列を抽出するPythonのライブラリはありますか?フォントのサブセット化に使用されます。

我想大声告诉你 · Answer

あなたが尋ねた質問は少し曖昧です。CSS セレクターを使用して HTML のコンテンツを取得する場合は、lxml.cssselect を使用できます。これには、lxml を使用するだけではありません。

巴扎黑 · Answer

font-family は使用するフォントを指定するだけです。

あなたがやりたいことは、HTML 記事に含まれる漢字の数を計算し、リモートでダウンロードして使用できるように、これらの文字のみを含む小さな漢字フォントを動的または半静的に生成することですか?

中国語の文字を数えるだけなら、Python のセットが実際には最も単純です。

しかし、対応するフォントライブラリを生成するのは大きな落とし穴です。ファウンダーは現在、Yunzikuという同様のサービスを行っているようですが、以前価格について問い合わせたことがありますが、相手は正直に問題が多いと言いました。