Character Set과 Encoding 이해하기

문자셋과 인코딩의 정의

문자셋 (charset, Character Set)

하나의 언어권에서 사용하는 언어를 표현하기 위한 모든 문자(활자)의 모임을 문자셋(charater set)이라고 한다. 다시 말하면 우리가 얘기하는 언어를 책으로 출판할 때 필요한 문자(활자)를 모두 모은 것이라고 생각하면 된다. 추가적으로 부호와 공백 등과 같은 특수 문자도 문자셋에 포함된다.

영어의 경우 알파벳 대소문자와 특수 문자 등으로 간단하게 문자셋을 구성할 수 있지만 한글의 경우 출판에서 가,나,다 등으로 출판함으로 훨씬 다양한 문자셋을 가지고, 또한 한자를 병행해서 사용함으로 문자셋의 범위는 더욱 넓어진다.

추상적인 글자 셋은 여러 개의 인코딩을 가질 수 있다.
MIME 문자셋은 IANA에서 정의하며 인터넷 및 XML 파일에서 사용한다.

인코딩 (encoding)

인코딩은 문자셋을 컴퓨터가 이해할 수 있는 바이트와 매핑하는 규칙이다. 예를 들면 ASCII Code에서 A,B,C 등은 문자셋이고 A는 코드 65, B는 코드 66 등 바이트 순서와 매핑한 것이 인코딩이다. 따라서 문자셋을 어떻게 매핑하느냐에 따라 하나의 문자셋이 다양한 인코딩을 가질 수 있다.

추상적인 문자셋을 구체적인 bit-stream으로 표기하는 방법
여러가지 문자셋을 동시에 표시할 수 있다.
대부분의 인코딩에서는 대소문자를 구분하지 않는다.
대한민국 문자셋(charater set)에서 가장 많이 사용하는 인코딩은 "UTF-8", "KSC5601", "ISO-8859-1" 이다.

문자셋(인코딩)의 예

한글 : 8bit KSC5601 (8bit EUC-KR, 7bit ISO-2022-KR, ISO-2022-Int)
영문 : KSC5636, US-ASCII (둘 간의 차이는 화페 단위 뿐)
한글+영문 : KSC5861 (EUC-KR), KSC5636 + KSC5601를 모두 포함한다.
유니코드 : 4byte Unicode < ISO-10646 UCS (ISO-8859-1, UTF-8, UTF-16)

문자셋과 인코딩은 동일한 명칭을 가질 수 있어 서로 혼용하여 사용되는 경우가 많다.
EUC-KR은 원래 유닉스용 표준이었는데 인터넷으로 확장되어 사용된다.
KSC5601은 인터넷에서 원활한 한글(완성형) 사용을 위하여 정의된 표준이다.
EUC (Extended UNIX Code), UTF (UCS Transformation format)

기본 인코딩

Windows : 시스템 언어와 관련된 코드 페이지를 따름
- 영문 Windows는 CP1252 인코딩을 사용
- 한글 Windows는 MS949 인코딩을 사용

Unix : LANG 환경 변수로 지정된 로케일에 해당하는 인코딩
- Solaris는 LANG 환경 변수가 ko, ko_KR일 경우 EUC-KR 인코딩을 사용
- HP는 LANG 환경 변수가 ko_KR, ko_KR.eucKR일 경우 EUC-KR 인코딩을 사용
- Unix에서 locale -a 명령을 사용하여 LANG 환경 변수에 지정 가능한 문자셋을 확인할 수 있다.

HTML : ISO-8859-1와 ISO-10646
XML : UTF-8
웹 브라우져 : 내부적으로 모두 유니코드로 처리를 한다.
HTTP/1.0 : ISO-8859-1
HTTP (URL,URI) : US-ASCII, %hexadecimal_code, JavaScript escape() 함수 사용
Java : 유니코드 2.0
직렬화된 Java Class : UTF-8
J2EE : ISO-8859-1
Oracle : UTF-8 (AL32UTF8), 한국에서는 KSC5601 (KO16KSC5601)

다양한 환경에서 인코딩 설정

웹 브라우져 설정

"도구 -> 인터넷 옵션 -> 언어" 메뉴를 선택한다.
영어[en]와 한국어[ko]를 추가하고 원하는 언어를 가장 상단에 위치한다.

JVM 설정

일반적으로 LANG 환경 변수를 설정해 주면 자동으로 설정이 된다.

locale -a                               Solaria unix 명령어로 지원 가능한 encoding을 확인한다.
env  LANG  ko                           csh에서 Encoding을 설정한다. (KSC5601, EUC-KR)
LANG=ko                                 ksh에서 Encoding을 설정한다. (KSC5601, EUC-KR)

JVM 옵션 설정 (UTF-8, ISO-8859-1, KSC5601)

-Dfile.encoding=8859_1                  필수 항목
-Dfile.client.encoding=8859_1
-Dclient.encoding.override=8859_1       JVM 버전에 따라 (사용안함)

JSP를 사용하여 JVM 옵션 확인 (encoding.jsp)

file.encoding = <%= System.getProperty("file.encoding") %><br>
file.client.encoding = <%= System.getProperty("file.client.encoding") %><br>
client.encoding.override = <%= System.getProperty("client.encoding.override") %><br>

HTML 설정

HTML 파일을 UTF-8로 만들어 저장한다.

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

XML 설정

XML 파일을 UTF-8로 만들어 저장한다.

<?xml version="1.0" encoding="UTF-8" ?>

JSP 설정

JSP 파일을 UTF-8로 만들어 저장한다.

<%@ page pageEncoding="UTF-8" %>
<%@ page contentType="text/html;charset=UTF-8" %>

Servlet 설정

HTTP 요청의 인코딩 지정

request.setCharacterEncoding("UTF-8");

HTTP 응답의 인코딩 지정

response.setContentType("text/html; charset=UTF-8");

web.xml 설정

<mime-mapping>
    <extension>html</extension>
    <mime-type>text/html;charset=UTF-8</mime-type>
</mime-mapping>

Default Oracle Database 문자셋

Default Oracle Database 문자셋 : UTF-8 (AL32UTF8), 한국에서는 KSC5601 (KO16KSC5601)

AL32UTF8, KO16KSC5601 (KSC5601), WE8ISO8859P1 (8859_1)

Default Oracle Database 문자셋 확인 방법

sqlplus system/manager

select parameter || ' : ' || value parameter_value
  from NLS_DATABASE_PARAMETERS
 where parameter = 'NLS_CHARACTERSET'
    or parameter = 'NLS_NCHAR_CHARACTERSET';

select name || ' : ' || substr(value$, 1, 40) parameter_value
  from sys.props$
 where name = 'NLS_CHARACTERSET';

select parameter || ' : ' || value parameter_value
  from NLS_INSTANCE_PARAMETERS, V$NLS_PARAMETERS, NLS_SESSION_PARAMETERS;

Oracle Database 문자셋 변경 방법

환경 변수 또는 %ORACLE_HOME%/dbs/init[SID].ora 을 설정한다.

NLS_LANG='American_America.Ko16ksc5601'
ORA_NLS33='$ORACLE_HOME/ocommon/nls/admin/data'
NLS_DATE_FORMAT='YYYY-MM-DD'

DriverManager에서 문자셋 설정 방법

java.util.Properties props = new java.util.Properties();
props.put("charSet", "KSC5601" );
DriverManager.getConnection(dbUrl, props);[출처] Character Set과 Encoding 이해하기|작성자 경구사

'닷컴's_열공 > JAVA' 카테고리의 다른 글

RSS Writer 컴포넌트 만들기 - 자바 (0)	2008.08.21
간단한 파일 handling (0)	2008.07.21
형변환 Integer.parseInt와 Integer.valueOf의 차이점 (1)	2007.12.27
아래는 파일에 c:\\adsl.exe 라는 파일을 저장하고, (0)	2007.12.26
파일 읽어서 db에 저장, db서 data 읽어와서 파일로 저장 (0)	2007.12.26

평범함과 비범함의 차이

Character Set과 Encoding 이해하기

문자셋과 인코딩의 정의

기본 인코딩

다양한 환경에서 인코딩 설정

웹 브라우져 설정

JVM 설정

HTML 설정

XML 설정

JSP 설정

Servlet 설정

web.xml 설정

Default Oracle Database 문자셋

'닷컴's_열공 > JAVA' 카테고리의 다른 글

티스토리툴바

Character Set과 Encoding 이해하기

문자셋과 인코딩의 정의

기본 인코딩

다양한 환경에서 인코딩 설정

웹 브라우져 설정

JVM 설정

HTML 설정

XML 설정

JSP 설정

Servlet 설정

web.xml 설정

Default Oracle Database 문자셋

'닷컴's_열공 > JAVA' 카테고리의 다른 글

'닷컴's_열공/JAVA' Related Articles

티스토리툴바