본문 바로가기

디코딩2

ASCII Code, Unicode, encode, decode (2편) 표현 방식 UTF-8은 위 규칙에 따라서 유니코드 문자를 인코딩 합니다. 1바이트 : ASCII코드 문자가 ASCII 코드인 경우에는 ASCII와 동일하게 1바이트로 표현을 합니다. 2바이트 : 아랍, 히브리, 대부분의 유럽계(조지안 문자 제외) UTF-8에서는 U+0080 ~ U+07FF 사이의 아랍, 히브리, 유럽계 문자들을 2바이트로 표현합니다. 여기서 앞의 바이트 앞에 110을 붙이고, 따라오는 바이트의 앞에는 10을 붙이는 규칙을 적용합니다. 3바이트 : 기본 다국어 평면(BMP) ASCII와 아랍, 히브리, 유럽계 문자들을 제외한 BMP 문자들은 모두 3바이트로 표현합니다. 3바이트로 표현하는 규칙을 2바이트와 유사하게 적용됩니다. 첫 바이트 앞에는 1110을 붙이고, 나머지 두 바이트 앞에는..
ASCII Code, Unicode, encode, decode (1편) 시작하기 전에 컴퓨터의 기본 저장 단위는 바이트(byte)이다. 1바이트(byte)는 8비트(bit)이다. 1byte에는 2의 8승에 해당하는 256개의 고유한 값을 저장할 수 있다. 문자나 기호들의 집합을 컴퓨터에서 저장하거나, 통신 목적으로 사용할 경우에는 부호로 바꾸어야 한다. 이를 **'문자 인코딩(encoding)' 또는 '부호화'**라고 하며 부호화된 문자를 복원하는 것을 '복호화'라고 한다. ASCII Code ASCII(아스키)는 American Standard Code for Information Interchange의 약자로써, ANSI(미국표준협회)에서 만든 표준 코드 체계다. ASCII Code를 만든 이유는, 컴퓨터는 1과 0 이 두 수로 밖에 연산을 할 수 없으므로 문자도 숫자로..