유니코드 문자열 변환 방법
다양한 프로그래밍 시나리오에서는 서로 다른 유형의 유니코드 문자열 간 변환이 필요할 수 있습니다. 그러나 기존의 mbstowcs()와 wcstombs() 사용 방법에는 한계가 있습니다. 이러한 방법은 멀티바이트 문자 집합과 와이드 문자 문자열 간의 변환을 수행하지만 반드시 UTF-16 또는 UTF-32에서 작동하는 것은 아니며 로케일의 wchar_t 인코딩에 따라 달라집니다.
C의 더 나은 접근 방식 11
C 11에서는 다음을 포함하여 유니코드 문자열 변환을 위한 몇 가지 새로운 옵션을 도입했습니다.
1. std::wstring_convert
이 템플릿 클래스는 문자열 간 변환을 위한 편리한 인터페이스를 제공합니다. UTF-8에서 UTF-16으로, UTF-8에서 UTF-32로 등 다양한 변환을 처리하기 위해 다양한 codecvt 패싯과 함께 사용할 수 있습니다.
<code class="cpp">std::wstring_convert<std::codecvt_utf8_utf16<char16_t>, char16_t> convert; std::string utf8_string = u8"This string has UTF-8 content"; std::u16string utf16_string = convert.from_bytes(utf8_string);</code>
2. 새로운 Codecvt 전문화
C 11에서는 사용하기 더 쉬운 새로운 codecvt 전문화도 도입했습니다.
<code class="cpp">std::codecvt_utf8_utf16<char16_t> // converts between UTF-8 and UTF-16 std::codecvt_utf8<char32_t> // converts between UTF-8 and UTF-32 std::codecvt_utf8<char16_t> // converts between UTF-8 and UCS-2</code>
이러한 전문화는 std::wstring_convert와 함께 사용하여 변환을 용이하게 할 수 있습니다.
<code class="cpp">std::wstring_convert<std::codecvt_utf8_utf16<char16_t>, char16_t> convert16; std::string a = convert16.to_bytes(u"This string has UTF-16 content");</code>
참고: Visual Studio 2010에서는 typedef 유형의 템플릿 특수화 제한으로 인해 이러한 특수화를 사용하는 데 문제가 있을 수 있습니다. 이러한 경우 소멸자를 사용하여 codecvt의 하위 클래스를 정의하거나 std::use_facet 템플릿 함수를 사용하는 것이 좋습니다.
3. UTF-32와 UTF-16 간 변환
C 11은 UTF-32와 UTF-16 간의 직접적인 변환을 제공하지 않으므로 std::wstring_convert:
의 두 인스턴스를 결합할 수 있습니다.<code class="cpp">std::wstring_convert<std::codecvt_utf8_utf32<char32_t>, char32_t> convert32; std::wstring_convert<std::codecvt_utf8_utf16<char16_t>, char16_t> convert16; std::u32string utf32_string = u"This string has UTF-32 content"; std::string utf8_string = convert32.to_bytes(utf32_string); std::u16string utf16_string = convert16.from_bytes(utf8_string);</code>
위 내용은 C 11에서 다양한 유형의 유니코드 문자열을 어떻게 변환합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!