ASP.NET의 문자열에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?-C++-php.cn

ASP.NET의 문자열에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

Susan Sarandon

풀어 주다： 2025-01-11 22:21:49

원래의

341명이 탐색했습니다.

How Can I Efficiently Remove HTML Tags from Strings in ASP.NET?

ASP.NET의 HTML에서 일반 텍스트 추출: 깔끔한 접근 방식

ASP.NET 개발자는 데이터 무결성을 손상시키지 않고 HTML 문자열에서 순수 텍스트를 추출해야 하는 문제에 직면하는 경우가 많습니다. 여기에는 HTML 태그를 효율적으로 제거하는 작업이 포함됩니다.

간단한 솔루션

ASP.NET은 정규식의 복잡성을 피하면서 이를 위한 간소화된 방법을 제공합니다. 다음 코드 조각은 이를 보여줍니다.

<code class="language-csharp">string input = "<!-- Hello -->"; 
string strippedHtml = System.Text.RegularExpressions.Regex.Replace(input, "<[^>]*>", string.Empty).Replace("\s+", " ").Trim();</code>

로그인 후 복사

작동 방식:

태그 제거: 코드는 정규식을 사용하여 모든 HTML 태그를 식별하고 제거합니다. <[^>]*>은 꺾쇠괄호로 묶인 모든 태그와 일치합니다.
공백 정리: 줄 바꿈을 포함한 과도한 공백은 단일 공백으로 대체되고 선행/후행 공백은 잘립니다.

중요 고려사항

이 접근 방식은 효과적이기는 하지만 다음과 같은 한계가 있습니다.

이스케이프 괄호: HTML 및 XML에서는 속성 값 내에 꺾쇠 괄호를 사용할 수 있습니다. 이스케이프된 대괄호가 있는 경우 이 방법을 사용하면 텍스트 일부가 잘못 제거될 수 있습니다.
보안: 일반적으로 안전하지만 절대적인 텍스트 순수성을 요구하는 애플리케이션, 특히 신뢰할 수 없는 HTML 소스를 처리할 때 충분하지 않을 수 있습니다.