따옴표를 유지하면서 쉼표를 사용하여 텍스트 분할
쉼표로 구분된 텍스트를 구문 분석할 때 인용된 하위 문자열 내에 쉼표가 나타나는 상황을 처리하는 것이 중요합니다. 예를 들면 다음과 같습니다.
123,test,444,"don't split, this",more test,1
분할 기본 String.split(",") 메서드를 사용하여 쉼표로 묶은 이 문자열은 다음을 생성합니다.
123 test 444 "don't split this" more test 1
보시다시피 "don't Split, this" 인용문 안의 쉼표는 다음과 같이 잘못 해석됩니다. 구분 기호.
이 문제를 해결하려면 보다 정교한 접근 방식이 필요합니다. 이 경우 정규식을 사용하여 짝수 개의 큰따옴표가 뒤따르지 않는 쉼표로 문자열을 분할할 수 있습니다. 이렇게 하면 인용된 부분 문자열 안의 쉼표가 구분 기호로 오인되지 않습니다.
str.split(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)");
이 정규식은 다음 논리를 사용합니다.
(?=): 미리보기 주장 보장:
즉, 이 미리보기는 현재 쉼표 뒤에 짝수 개의 큰따옴표가 있는지 확인하고, 그렇다면 문자열이 끝나는지 확인합니다. , 이는 쉼표가 인용된 하위 문자열 안에 있지 않으며 구분 기호로 간주될 수 있음을 나타냅니다. 그렇지 않으면 쉼표가 무시됩니다.
정규식의 단순화된 버전:
str.split("(?x) , (?= (?: [^\"]* \" [^\"]* \" )* [^\"]* $ )");
이 버전에서는 공백 문자를 무시하여 정규식의 가독성을 높이기 위해 수정자(?x)가 사용되었습니다.
위 내용은 따옴표를 유지하면서 쉼표로 구분된 텍스트를 어떻게 분할할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!