좀 더 솔직해 지자..

유니코드

전공/c, c++, ce 2008. 12. 10. 12:09

원문보기: http://www.itka.kr/zbxe/?mid=debugprog&page=1&document_srl=1051

유니코드는 16비트의 단일한 값으로 지구상의 모든 문자를 표현할 수 있는 문자 코드 체계이다. 유니코드의 등장 배경과 내부적인 구성 원리 등의 자세한 사항에 대해서는 다음에 따로 상세하게 다루되 여기서는 준비만 해 두자. 유니 코드를 지원하려면 문자형이나 문자열에 대해 C언어의 타입을 바로 쓰지 말고 유니코드 설정에 따라 변경되는 중간 타입을 사용한다. C언어에 익숙한 사람들은 앞으로 문자나 문자열을 표현할 때 다음 타읍들을 쓰도록하자

C 타입	유니코드 타입
char	TCHAR
char	LPSTR
const char*	LPCTSTR

TCHAR는 C의 기본 타입 중 하나인 char와 일단 같지만 유니코드로 컴파일할 때는 wchar_t타입이 된다. Wchar_t는 실제로는 unsigned short 로 정의 되어 있으며 부호없는 16비트 정수형이다. TCHAR타입의 실제 정의문은 다음과 같이 조건부 컴파일문으로 작성되어 있다.

#ifdef UNICODE

typedef wchar_t TCHAR;

#else

typedef char TCHAR;

#endif

char를 바로 쓴 소스는 유니코드로 바꿀 때 일일이 소스를 뜯어 고친 후 다시 컴파일해야 하지만 TCHAR라는 중간 타입을 사용한 소스는 프로젝트 설정에 따라 소스도 같이 바뀌는 효과가 있으므로 소스는 그대로 두고 컴파일만 다시 하면 된다. 문자열이 필요할 때도 char *를 쓰지 말고 가급적이면 LPSTR또는 TCHAR*를 쓰는 것이 현명하다.

C 표준 함수	유니코드 지원 함수
strlen	lstrlen
strcpy	lstrcpy
strcat	lstrcat
strcmp	lstrcmp
sprintf	wsprintf

Strlen은 char타입의 문자열 길이만 조사하지만 lstrlen은 TCHAR타입의 묹열에 대해서도 동작하므로 이식에 훨씬 더 유리하다. 문자열 상수도 타입이 있으므로 겹 따옴표안에 바로 문자열 상수를 쓰지 말고 TEXT 매크로로 둘러 싸는 것이 좋다.

TCHAR *str=”string”; //이렇게 쓰지 말고

TCHAR *str=TEXT(“string”); //TEXT 메크로 안에 문자열 상수를 쓴다.

TEXT 메크로는 유니코드 설정에 따라 문자열 상수의 타입을 변경한다. 유니코등로 컴파일할 때는 각 문자가 16비트의 유니코드 문자가 되며 그렇지 않을 때는 8비트의 안시 문자가 된다.

원문보기: http://kin.naver.com/detail/detail.php?d1id=1&dir_id=10104&eid=zK7GUHsheiLg6eMgt9nry27QcIWXerUq&qb=VENIQVIgV0NIQVI=&pid=fg8yfwoi5UsssZ3Vc4Vsss--440486&sid=ST8yBWsmP0kAAANjG5k

VS 6.0 에서는

" 내용 " <- 이런 부분이 캐스팅 없이도 잘 돌아갔는데..

VS 2005 에서는 Warning 도 아니고 Error 가 나버리네요..

예를들어

AfxMessageBox("하하");

이거 잘 돌아가야 맞는건데..

AfxMessageBox((CString)"하하");

이래야만 컴파일이 됩니다.. 모든 문자열에서 다 이런 에러가 나는데..

대체이건 설정 문제일까요..?

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

MFC 로 작성중인가 보군요...

문제는 유니코드 때문입니다...

즉...AfxMessageBox 함수는 2가지 형태로 존재하는데요...

그 중에 하나가...

다음과 같습니다...

int AfxMessageBox(
   LPCTSTR lpszText,
   UINT nType = MB_OK,
   UINT nIDHelp = 0
);

여기서...LPCTSTR 은 Long Pointer Constant TCHAR String 의 뜻입니다...

이 TCHAR 라는 것은 typedef 으로 재정의된 것으로...

유니코드가 설정되어 있으면...모든 문자를 2바이트로 (wchar_t)

그렇지 않다면...기존의 char 방식인 1바이트로 한다는 것을 의미합니다.(char)

(자세한 것은 직접 공부를...)

그럼...AfxMessageBox("하하"); 이게 왜 에러가 나는가 ??

"하하" <<-- 이건 기존의 char와 같은 방식으로 취급합니다 !!

즉...영어 알파벳은 1바이트, 한글은 2바이트로 취급됩니다...

"하하" 라는 문자열을 유니코드로 취급하려면...L(알파벳) 을 앞에 붙여주죠...

L"하하" <<-- 요렇게...

또한... "하하" 문자열이 범용적으로(Generic) 하게...동작하려면...

_T 매크로로 감싸주면 됩니다...

_T("하하") <<-- 요렇게...

유용한 표현이니 잘 알아 두세요...밑줄 쫙~~

그러나...질문자의 컴파일러는 설정한 부분에서 유니코드가 가능하도록 설정이 되어 있어서

모든 문자를 2바이트로 취급하도록 설정해 놓고...

정작...AfxMessageBox 함수에서는 "하하" 문자를 1바이트로 취급하도록 해 놓았으니 문제가 되는거죠...

참고로...CString 타입은 TCHAR 타입에 그 기반을 두고 있으므로...질문자가 CString 타입으로 캐스팅을

한 것이 TCHAR로 취급되어 에러가 안 나는 겁니다...

* MSDN 부분을 발췌해 보면...

========================================================================================

CString is based on the TCHAR data type. If the symbol _UNICODE is defined for your program, TCHAR is defined as type wchar_t, a 16-bit character type; otherwise, it is defined as char, the normal 8-bit character type. Under Unicode, then, CString objects are composed of 16-bit characters. Without Unicode, they are composed of 8-bit char type.

========================================================================================

해결책은 여러가지가 있습니다만...(TCHAR, LPCTSTR, _T 매크로 사용 등...)

그 중에...컴파일러 자체적으로 설정하는 방법을 보면...

유니코드를 사용하지 않도록 설정: ALT + F7 눌러서...Property 창이 나오면...Not Set 으로 설정 !!

* 그림 참고 *