ASP.NET で HTML からテキストを効率的に抽出するにはどうすればよいですか?-C++-php.cn

ASP.NET で HTML からテキストを効率的に抽出するにはどうすればよいですか?

Patricia Arquette

リリース： 2025-01-11 22:26:44

オリジナル

491 人が閲覧しました

<img src="https://img.php.cn/upload/article/000/000/000/173660560729540.jpg" alt="How to Efficiently Extract Text from HTML in ASP.NET? "> ASP.NET での HTML テキスト抽出メソッド ASP.NET で HTML データを処理する場合、多くの場合、HTML タグを削除してプレーンテキストコンテンツを抽出する必要があります。この記事では、次のような一般的に使用されるテキスト抽出手法をいくつか紹介します。 正規表現ベースのソリューション このソリューションは正規表現を使用して HTML タグを効率的に削除します。テキストの抽出は、すべての HTML タグパターン (例: <code><</code> で始まるタグ) を置き換えることによって実現されます。 正規化とクリーンアップ タグを削除した後、文字列を正規化するためにさらなる処理が必要です。複数のスペース文字は 1 つのスペースに置き換えられ、先頭と末尾のスペースは削除されます。必要に応じて、HTML 文字エンティティを実際の文字に変換し直すこともできます。 制限事項 この方法は信頼性がありますが、制限もあります。 HTML と XML では、属性値に <code>></code> 文字を使用できます。このような値が存在する場合、このシナリオでは破損したトークンが返される可能性があります。 ベストプラクティス 正規表現方法はテキストを迅速かつ効率的に抽出できますが、完璧な解決策ではありません。より正確で信頼性の高い結果を得るには、適切な HTML パーサーを使用することをお勧めします。 例: <div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false"><code class="language-csharp">string html = "- Hello"; string text = Regex.Replace(html, @"<[^>]+>", ""); //去除HTML标签 text = Regex.Replace(text, @"\s+", " "); //将多个空格替换为单个空格 text = text.Trim(); //去除开头和结尾的空格</code></pre><div class="contentsignin">ログイン後にコピー</div></div> このコードは、HTML 文字列からテキスト「Hello」を抽出します。

以上がASP.NET で HTML からテキストを効率的に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。