E D R , A S I H C RSS

Unicode



1. Unicode

In computing, Unicode provides an international standard which has the goal of providing the means to encode the text of every document people want to store on computers. This includes all scripts in active use today, many scripts known only by scholars, and symbols which do not strictly represent scripts, like mathematical, linguistic and APL symbols.

Establishing Unicode involves an ambitious project to replace existing character sets, many of them limited in size and problematic in multilingual environments. Despite technical problems and limitations, Unicode has become the most complete character set and one of the largest, and seems set to serve as the dominant encoding scheme in the internationalization of software and in multilingual environments. Many recent technologies, such as XML, the Java programming language as well as several operating systems, have adopted Unicode as an underlying scheme to represent text.
'''from wikipedia.org'''

3. thread

는 것 나.
대부 UTF-8 기반 개발되고 다. 로 만들는 모든 는 모두 UTF-8 다. 그, KDE EUC를 기반 만, 로만 뿐 내부로는 UTF-8로 변 . 결국 UTF-8로 변경다.
MultiLinugual 로그램 개발라면 당 . - eternalbleu

4. 관련 글

UNICODE :

http://www.unicode.org/standard/translations/korean.html

 ?
,
로그램,
 
드는 모든 문 다.


UCS-2 :

대부  는 문  규격다.
2bytes 범 UCS-2 다.
 bit 로  UTF-16 다.
UTF-16LE, UTF-16BE 가 동 규격로 Little Endian, Big Endian  byte order (바 )가 다를뿐 다.
iconv --list 를 보면 는데,
UTF-16LE, UCS-2LE 가 같고 BE 끼리 같라고 보면 됩다.
그냥 UTF-16 UTF-16LE  BOM 더가 붙다.
UCS-2 는 더가 붙 다.

UCS-4 :

UCS-2  다.
뒤 2bytes 는 UCS-2   다.
, UCS-2  0xFFFF 는 UCS-4  0x0000FFFF  다.
UTF-32 로 말만 바꾸 과 동다.
 브라 내부  되며,
js  indexOf() 로 가면 UCS-4 드가 10로 반다.
10 므로 65535 까는 UCS-2   다.

UTF-8 :

UCS-2, UCS-4 는 다.
ascii 만   가능데,   는 바가 낭.
그런 고, 문로 뭘  UTF-7 보다는 다.
가변길를 가 다.
단 로 UCS-2, UCS-4 규격  가능다.
는 UCS-2 규격 내 기 때문 3bytes 내  가능다.

UTF-7 :

  ascii 만    만들다.
당 8bit   7bit 만 다.
UTF-8 과 같 나,
모든 ascii 값  ascii  미가 기 때문 로 무 기는  다.


BOM (Byte Order Mark) :

류가 많기 때문  더를 붙 다.
EmEditor, UltraEdit, Vim   다.




http://www.unicode.org/charts/

각 나라 드범 된 문를 볼  다.
 0   기 때문 (Zerofill  기 때문) 4리까는 UCS-2 려 고,
5 리 부는 UCS-4 려 .

		
resy	리말로 된  겠다 는데..
료라  .  드 = UTF-16(or 다른 딩)  ...

군가 대를 매긴 는데... ... ^^:	07/13 2:23:12  기
		
resy	보로...
UCS 는 드값 라고 면 됩다. UTF 는  방법(, 바 떻게 )고, UCS 는 미리  는 각 글 드를  다. 가령 글 '가' 는  U+AC00  는데, UCS2 는 0xAC00  다.  UTF-8 면, 0xEAB080 다.

    UCS2 = UTF16?? 라고 리고 맸는데,   모르겠다. 못된  길... ^^;

문 (Character Set)딩(Encoding)  가르는 데가 더군. 결국  나다보 게 되다만..  료 빼면 국내는 -_-;

그러고보  군가가 국가  렸던 데, locale  같기... 	07/13 5:19:40  기
		
utf	utf -8 . 래 목 ascii문는 경  다. 개발 과 ascii 문   그대로 변다. 목 는 ucs 가 2 또는 4바 는데   놓고 보면  (0x00)  다. 를 들 '가'는 0xac00  때문 리가 곤란게 됩다. 그래   딩 기법 개발게 된 .	07/13 23:22:49  기
		
resy	 기대로     UTF-8 미가  다. 가 들 . 대로 HTTP  며,  가 들  .

UTF-8 개발 리는 래로 가면 볼  다.
http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt 	07/13 23:58:19  	utf 님  utf7 만 결된 문다 :)

asc 문결되는 문람들게 utf16,32 를 라고 말 로 먹 고.. euc   unicode 로 가는 단    라고 보는게 더  ...

Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2021-02-07 05:28:20
Processing time 0.0127 sec