1. Unicode ¶
In computing, Unicode provides an international standard which has the goal of providing the means to encode the text of every document people want to store on computers. This includes all scripts in active use today, many scripts known only by scholars, and symbols which do not strictly represent scripts, like mathematical, linguistic and APL symbols. Establishing Unicode involves an ambitious project to replace existing character sets, many of them limited in size and problematic in multilingual environments. Despite technical problems and limitations, Unicode has become the most complete character set and one of the largest, and seems set to serve as the dominant encoding scheme in the internationalization of software and in multilingual environments. Many recent technologies, such as XML, the Java programming language as well as several operating systems, have adopted Unicode as an underlying scheme to represent text. '''from wikipedia.org'''
2. document ¶
official consortium : http://www.unicode.org
introduction : http://www.unicode.org/standard/translations/korean.html
specification : http://www.unicode.org/versions/Unicode4.1.0/
http://pluu.pe.kr/pukiwiki/
introduction : http://www.unicode.org/standard/translations/korean.html
specification : http://www.unicode.org/versions/Unicode4.1.0/
http://pluu.pe.kr/pukiwiki/
3. thread ¶
관는 것 나.
대부 리 리 UTF-8 기반로 개발되고 나 다. 로 만들는 모든 는 모두 UTF-8 다. 그, KDE 같 매들 기 EUC를 기반로 문 만, 면로만 뿐 내부로는 UTF-8로 변 리. 결국 UTF-8로 문 변경 기 문 대다.
MultiLinugual 랫 는 로그램 개발라면 당 는 . - eternalbleu
대부 리 리 UTF-8 기반로 개발되고 나 다. 로 만들는 모든 는 모두 UTF-8 다. 그, KDE 같 매들 기 EUC를 기반로 문 만, 면로만 뿐 내부로는 UTF-8로 변 리. 결국 UTF-8로 문 변경 기 문 대다.
MultiLinugual 랫 는 로그램 개발라면 당 는 . - eternalbleu
4. 관련 글 ¶
UNICODE : http://www.unicode.org/standard/translations/korean.html 드 대 ? 떤 랫, 떤 로그램, 떤 관 드는 모든 문 대 고 를 공다. UCS-2 : 대부 는 문들 규격다. 2bytes 범라 UCS-2 다. bit 로 UTF-16 다. UTF-16LE, UTF-16BE 가 동 규격로 Little Endian, Big Endian 단 byte order (바 )가 다를뿐 다. iconv --list 를 보면 데 많 나는데, UTF-16LE, UCS-2LE 가 같고 BE 끼리 같라고 보면 됩다. 그냥 UTF-16 UTF-16LE 동나 BOM 더가 붙다. UCS-2 는 더가 붙 다. UCS-4 : UCS-2 다. 뒤 2bytes 는 UCS-2 됩다. , UCS-2 0xFFFF 는 UCS-4 0x0000FFFF 같 드다. UTF-32 로 말만 바꾸 내과 동다. 브라 내부 것 되며, js indexOf() 로 가면 UCS-4 드가 10로 반됩다. 10 므로 65535 까는 UCS-2 됩다. UTF-8 : UCS-2, UCS-4 는 권는 명 낭가 다. ascii 만로 가능데, 글 는 바가 낭되. 그런 고, 문로 뭘 기 UTF-7 보다는 리 가 보로 됩다. 가변길를 가는 다. 단 만로 UCS-2, UCS-4 규격로 변 가능다. 국는 UCS-2 규격 내 기 때문 3bytes 내 가능다. UTF-7 : 메 ascii 만로 만들다. 글당 8bit 당만 7bit 만 다. UTF-8 과 같 가고 나, 모든 ascii 값 ascii 같 미가 기 때문 것로 무 기는 듭다. BOM (Byte Order Mark) : 드 류가 많기 때문 런 더를 붙 구기 다. EmEditor, UltraEdit, Vim 디 다. 드 http://www.unicode.org/charts/ 각 나라 드범 된 문를 볼 다. 0 기 때문 (Zerofill 기 때문) 4리까는 UCS-2 려 고, 5 리 부는 UCS-4 려 . resy 리말로 된 드 리 면 겠다 는데.. 런 료라 군. 드 = UTF-16(or 다른 딩) 로 각는 람 많 ... 군가 대를 매긴 는데... ... ^^: 07/13 2:23:12 멘 기 resy 보 내로... UCS 는 드값 블라고 각면 됩다. UTF 는 딩 방법(, 바 된 를 떻게 것냐 는 )고, UCS 는 미리 되 는 각 글 드를 블 놓 것다. 가령 글 '가' 는 드 U+AC00 당는데, UCS2 는 0xAC00 블 고 다. 것 UTF-8 딩면, 0xEAB080 됩다. 구 런 로 명는 람 UCS2 = UTF16?? 라고 리고 맸는데, 게 명 모르겠다. 못된 면 가 길... ^^; 문 (Character Set)랑 딩(Encoding) 대 뭐 가르는 데가 더군. 결국 나다보 로 게 되다만.. 국 료 빼면 국내는 -_-; 그러고보 군가가 국가 드 딩 가는 미 대 글 렸던 같데, locale 대 내 그 로 라는 같기... 07/13 5:19:40 멘 기 utf utf -8 목 매. 래 목 ascii문만 는 경 는 바를 기 게 닙다. 개발 과 ascii 문 그 그대로 변 되록 것다. 목 는 ucs 릭가 2 또는 4바로 루 는데 링로 놓고 보면 (0x00) 들 다. 를 들 '가'는 0xac00데 바 때문 링 리가 곤란게 됩다. 그래 바를 는 딩 기법 개발게 된 . 07/13 23:22:49 멘 기 resy 기대로 UTF-8 미가 기 다. 문가 들가 까. 대로 HTTP 로 방며, 데 문가 들 . UTF-8 개발 대 리는 래로 가면 볼 다. http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt 07/13 23:58:19 멘 기 utf 님 기 부 utf7 만로 결된 문다 :) asc 문 만로 결되는 문권 람들게 utf16,32 를 라고 말봐 로 먹 것고.. euc 딩 unicode 로 가는 단 란 기 과기 딩라고 보는게 더 미 까 군...