File Encoding(파일 인코딩)

File Encoding


이전 포스팅에서 Endiong문제로 파일작업이 제대로 이루어지지 않는 경우에 대한 예제를 살펴보았다.
오늘은 보조스트림을 통해 Encoding까지 지정하는 방법을 알아보려고 한다.

TextFile Encoding


.txt파일을 가지고 예제를 살펴보기 전에 인코딩을 설정하는 법을 알아보려고 한다.

  • .txt File Encoding
    • 자신이 원하는 경로에 새로만들기로 TextFile을 생성한다.
    • 원하는 내용을 입력하고 다른이름으로 저장버튼을 누른다.
    • 저장하기 전에 하단에 인코딩부분에서 자신이 테스트할 인코딩 유형을 선택한다.

오늘 테스트해볼 유형은 대표적인 한글인코딩 타입인 UTF-8, ANSI 계열 인코딩이다.

UTF-8


UTF는 Unicode Transformation Format의 줄임말로 전세계 모든 문자를 컴퓨터에서 표현하고 다룰 수 있도록 설계된 산업표준이다.
따라서 한글도 당연하게 표현가능하다.
UTF-8은 문자열 집합과 인코딩 형태를 8bit단위로 한다는 의미를 가진다.
UTF-8은 한 글자를 표현하기 위해 1~4byte를 사용하는데 이를 가변길이 인코딩 방식이라고 한다.

ANSI


ANSIASCII의 확장이라고 할 수 있다
ANSI8bit로 이루어져 있어서 256개의 문자를 표현할 수 있다.
하지만 ANSI로 모든 언어를 표현할 수 없어서 Code Page라는 개념이 도입되었다.
각 언어별로 Code 값을 지정하고, Code마다 다른 문자열 표를 의미하도록 약속을 한 것이다.
그러므로 안시는 아래와 같이 표현할 수 있다.

ANSI = ASCII(7bit) + CodePage(1bit)

CP949


CP949ANSI계열의 한글 인코딩 방식이다.
CP949Code Page 949의 줄임말이고, 949는 한국을 의미한다.
유닉스계열의 완성형 코드 조합 인코딩방식인 EUC-KR을 확장하여 만든것이다.
EUC-KR로는 표현할 수 있는 문자에 한계가 있었기 때문이다.
CP949는 윈도우즈 계열에서 사용나온것이고, 마이크로소프트가 EUC-KR을 확장하여 만든것이라서 MS949라고 부르기도 한다. 인코딩 방식에 대해 더 궁금한 사람은 내가 참고했던 블로그에서 더 많은 내용을 읽어보는 것도 좋을것 같다.

File Encoding


Encoding에 대해 설명하다보니 글이 길어졌다.
이제 보조 스트림을 사용하여 File Encoding을 지정하는 방법에 대해 알아보자.

Sample Code

public static void main(String[] args) throws IOException {
		
	FileInputStream fis_ANSI = new FileInputStream("d:/testDir/ansi.txt");
	FileInputStream fis_UTF8 = new FileInputStream("d:/testDir/utf-8.txt");
	
	InputStreamReader isr_ANSI = new InputStreamReader(fis_ANSI, "MS949");
	InputStreamReader isr_UTF8 = new InputStreamReader(fis_UTF8, "UTF-8");
		
	int data_ANSI;
		
	System.out.println("<< ANSI ENCODING >>");
	while( (data_ANSI = isr_ANSI.read()) != -1) {
		System.out.print((char)data_ANSI);
	}
	System.out.println();
	System.out.println("----------------------");
		
	int data_UTF8;
		
	System.out.println("<< UTF-8 ENCODING >>");
	while( (data_UTF8 = isr_UTF8.read()) != -1) {
		System.out.print((char)data_UTF8);
	}
	System.out.println();
	System.out.println("----------------------");
}

출력결과

<< ANSI ENCODING >>
ANSI ENCODING TEST
안시계열 인코딩 테스트
----------------------
<< UTF-8 ENCODING >>
UTF-8 ENCODING TEST
유티에프-8 인코딩 테스트
----------------------

출력결과에서 볼 수 있듯이 한글입력도 깨짐없이 잘 나오는 것을 알 수 있다.


	FileInputStream fis_ANSI = new FileInputStream("d:/testDir/ansi.txt");
	FileInputStream fis_UTF8 = new FileInputStream("d:/testDir/utf-8.txt");
	
	InputStreamReader isr_ANSI = new InputStreamReader(fis_ANSI, "MS949");
	InputStreamReader isr_UTF8 = new InputStreamReader(fis_UTF8, "UTF-8");

위에서 FileInputStream은 파일을 읽어오는 기반스트림이고, InputStreaReader는 파일을 읽을 때 어떤 인코딩을 사용할지를 정해주는 보조스트림이다.
이전 예제에서 InputStreamReader를 사용하여 콘솔의 입력을 읽어온 적이 있는데 그 때는 생성자의 매개변수로 System.in을 넘겨주었었다.
오늘 사용한 InputStreamReader는 Character-set까지 지정할 수 있는 매개변수가 2개인 생성자를 사용하여 객체를 생성했다.

SUMMARY


  • Stream
    • 자바에서는 바이트기반 스트림과 문자기반 스트림을 제공한다.
    • 두 스트림의 최상위 부모는 InputStream, OutputStream이고, ㅣ이것을 상속한 클래스는 FileIOStream, ByteArrayIOStream, PipedIOStream이 있다.
    • Stream은 FIFO(First Input First Output)구조로 이루어져 있다.
  • ByteArrayIOStream
    • ByteArrayInputStream은 byte기반의 배열을 읽어와 내부 버퍼에 저장한다.
    • ByteArrayOutputStream은 inputStread의 내용을 읽어와 내부 버퍼에 저장하고, 출력할 때 사용한다.
    • read()메서드는 기본적으로 1byte씩 데이터를 읽어온다.
  • FileIOStream
    • File을 읽어오거나 File내부에 내용을 작성할 때 사용된다.
    • 보조스트림과 함께 사용하면 부가적인 기능을 추가할 수 있다.
    • 보조스트림은 기반 스트림없이 단독으로 사용될 수 없다.

P.S


File클래스에 대한 예제가 부족한 것 같아 Sample Code만 있는 포스트를 업로드 하려고 합니다.
File클래스의 사용법이나 더 많은 Method를 알고싶으신 분들은 참고하시면 좋을 것 같습니다.

2020

MVC Model1과 MVC Model2

November 24 2020

MVC 패턴 MVC패턴은 소프트웨어 공학에서 사용되는 디자인 패턴 중 하나입니다. MVC패턴은 사용자 인터페이스와 비즈니스 로직을 분리하여 각각의 로직을 독립적으로 운용하여 유지보수를 용이하게 만들 수 있는 디자인 패턴입니다.

URL과 URI

November 23 2020

URL URL은 Uniform Resource Locator의 약자로써 리소스의 위치를 통해 식별하는 방법을 의미합니다.

Tomcat 구조

November 19 2020

bin bin은 톰캣을 실행하고, 종료시키는 역할을 하는 스크립트(.bat, .sh) 파일이 위치하는 폴더입니다.

터미널에서 자바 컴파일과 실행

November 19 2020

Terminal을 사용하는 이유 IDE툴을 사용하면 소스코드를 알아서 컴파일해주고 실행해주기 때문에 어떻게 이러한 과정이 이루어지는지 생각하지 않게됩니다. 특히 경로에 대한 개념이 무뎌지는것 같습니다. 그래서 이번에는 Eclipse를 사용하지 않고 Terminal을 이용하여 직...

Web Server와 WAS

October 19 2020

Intro 본 포스팅은 HeeJeong Kwon님의 블로그를 참고하였습니다.

Socket통신과 HTTP통신

October 15 2020

Socket통신 Socket통신은 Server와 Client가 특정포트에 실시간으로 연결되어 있는 통신방식입니다. UDP를 사용하여 비연결지향 통신방식을 사용할 수 있지만, Socket통신의 경우 대부분이 TCP를 사용하여 연결지향형 통신방식을 사용합니다. 연결지향형이기 때문에...

HTTP Response 구조

October 13 2020

Intro 본 게시물은 아래의 게시물을 참고하여 포스팅하였습니다.

SQL-99 표준

October 11 2020

SQL-99 표준 SQL문은 ISO/ANSI에서 관계형 데이터베이스 표준 언어로 지정(SQL-82)된 후 SQL-92를 거쳐 SQL-99 표준 문법이 나왔습니다. 그리고 오라클은 9i 버전부터 SQL-99 방식의 문법을 지원하고 있습니다. SQL-99 조인은 앞에서 배운 조인 ...

JOIN의 종류(외부조인)

October 11 2020

외부조인(OUTER JOIN) 이전 포스팅에서는 등가조인, 비등가조인, 자체조인에 대해서 알아보았습니다. 이번 포스팅에서는 외부조인(outer join)에 대해서 알아보려고 합니다. 등가조인에서는 조인 조건의 데이터가 일치하는 정보만을 출력하였습니다. 다시 말해서 조인 조건의 ...

JOIN 기본개념

October 10 2020

JOIN JOIN은 필요한 데이터가 여러 테이블에 분산되어 있는경우 테이블과 테이블간의 관계를 이용하기 위한 것입니다. 만약 사원의 정보와 함께 사원의 근무부서의 위치를 함께 조회하고 싶다면, 사원테이블과 부서테이블을 둘 다 조회해야합니다. 이러한 경우에 사용되는 것이 JOIN...

log4j(log for java)

October 08 2020

Log4j 정의 Log4j (Log for Java)는 로그문의 출력을 다양한 대상으로 할 수 있도록 도와주는 도구이며 오픈소스 기반입니다.

iBatis

October 08 2020

iBatis iBatis는 객체와 DB 테이블간의 관계를 Mapping하여 효율적으로 데이터를 처리할 수 있는 기능을 제공해주는 ORM Framework입니다. iBatis를 사용하면 기존의 JDBC코드 없이 SQL문장을 더욱 직관적이고 간결하게 수행할 수 있습니다.

BabyGin(SW Expert Academy)

October 07 2020

Baby Gin Baby Gin은 간단한 카드게임입니다 Baby Gin게임은 run과 triple이 존재하고 카드의 구성이 run과 triple로만 이루어져 있으면 이것을 Baby Gin이라고 하고, 그렇지 않으면 lose입니다.

Gravity(SW Expert Academy)

October 06 2020

Gravity Gravity문제는 2차원 배열을 다루는 간단한 문제입니다. 2차원 배열은 박스와 빈 공간으로 이루어져 있고, 각각은 1과 0으로 표현됩니다. 주어진 2차원 배열을 시계방향으로 90도 회전시켰을 때 가장 큰 낙차가 얼마인지 구하는 문제입니다

File Sample Code(파일 예제)

September 27 2020

Sample Code ```java import java.io.File; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.List;

File Stream(파일 스트림)

September 27 2020

File 자바에서는 File 클래스는 사용해서 간단한 파일작업을 할 수 있다 오늘 예제에서는 파일을 생성하고, 읽어오는 방법에 대해 알아보려고 한다 File클래스는 이름은 File이지만 Directory까지 다루는 클래스이다

File Encoding(파일 인코딩)

September 27 2020

File Encoding 이전 포스팅에서 Endiong문제로 파일작업이 제대로 이루어지지 않는 경우에 대한 예제를 살펴보았다. 오늘은 보조스트림을 통해 Encoding까지 지정하는 방법을 알아보려고 한다.

ByteArrayIOStream(바이트 배열기반 입출력 스트림)

September 27 2020

Stream Stream이란 데이터를 주고받는 통로를 의미한다 Stream은 단방향으로만 작업이 가능하다. 따라서 입력과 출력을 위한 Stream이 따로 존재하고, 두 가지 작업을 하기 위해서는 입력스트림(InputStream)과 출력스트림(outputStream)이 하나씩 필...

Single-Thread VS Multi-Thread

September 22 2020

Single Thread(단일 쓰레드) Single Thread는 말 그대로 하나의 Thread를 사용하는 것이다. 단일 쓰레드를 사용하는 프로세스는 별도로 쓰레드를 관리하는 번거로움이 없어서 코딩은 용이하겠지만, 작업시간이 낭비되는 경우가 생긴다.

Thread

September 21 2020

Process Process는 운영체제에서 실행중인 하나의 프로그램을 의미한다. Multi-Process는 두 개 이상의 프로세스가 실행되는 것을 의미한다. Multi-Tasking은 두 개 이상의 프로세스를 실행하여 일을 처리하는 것을 의미한다.

람다식(Lambda)

September 21 2020

람다식 익명함수를 생성하기 위한 식이다.

해싱(Hashing)과 해시함수(Hash Function)

September 15 2020

해싱(Hashing) 해싱(Hashing)이란 해시함수(Hash Function)를 이용하여 해시 테이블(Hash Table)에 데이터를 저장하는 방법을 말합니다. 해시함수는 데이터가 저장되어 있는 위치를 알려주기 때문에 많은 데이터 중에서도 원하는 데이터를 빠르게 찾아낼 수...

Comparable, Comparator 차이

September 14 2020

Comparable Comparable은 Java.lang package에 있는 인터페이스이며 정렬을 위해 사용되는데, 보통 기본형(Primitive Type)을 정렬하는데 사용하지는 않습니다. Comparable을 사용하는것은 객체(Object)의 정렬기준을 만들어 주기 위해...

초급 프로젝트 후기

September 12 2020

초급 프로젝트 개발원에서 5일간 진행하는 프로젝트가 끝났다. JDBC를 이용해서 간단한 프로그램을 만드는 프로젝트였다. 우리는 영화관 예매 시스템을 만들기로했고, 생각보다 쉽지않다는 것을 느꼈다. 우선 시간을 관리한다는것이 어렵다는 것을 느꼈다. 모든 경우의 수를 생각해야하고,...

CHAR, VARCHAR2 (ORACLE)

September 06 2020

문자열 오라클의 문자열 자료는 ' '(single quote)로 묶어서 표현되며, 문자열 자료형은 CHAR, VARCHAR, VARCHAR2, LONG, CLOB, NVARCHAR, NCLOB 등이 있습니다. VARCHAR2는 오라클에서만 사용하는 문자열 자료형입니다. VARC...

Greedy Algorithm(탐욕 알고리즘)

August 20 2020

Greedy Algorithm (탐욕 알고리즘) Greedy Algorithm(탐욕 알고리즘)이란 최적해를 구하는 데 사용되는 근시안적인 방법입니다. 여러 경우 중 하나를 결정해야 할 때마다 그 순간에 최적이라고 생각되는 것을 선택해 나가는 방식으로 진행하여 최종적인 해답에 도...

검색 알고리즘(Search Algorithm)

August 14 2020

선형검색 알고리즘(LinearSearch Algorithm) 선형검색(LinearSearch)알고리즘이란, 요소가 직선모양으로 나열되어 있는 배열에서는 순차적으로 요소를 조회하여 원하는 값을 찾을 수 있습니다. 검색 알고리즘 중 가장 간단한 알고리즘입니다.

버블정렬(Bubble Sorting)

August 11 2020

버블정렬(Bubble Sorting) 버블정렬(Bubble Sorting)은 배열에서 인접한 인덱스의 값을 비교하여 오름차순 또는 내림차순으로 정렬하는 방법입니다.

추상클래스와 인터페이스 (Abstract Class and Interface)

August 08 2020

추상클래스(Abstract Class) 추상클래스(Abstract Class)는 말 그대로 추상적인 클래스입니다. 하지만 추상적이라는 것은 너무 광범위한 단어입니다. 자바에서는 추상메소드가 한 개라도 선언되어 있는 클래스는 반드시 추상클래스로 선언해야합니다. 추상메소드란 메소드...

오버라이딩과 다형성(Overriding and Polymorphism)

August 07 2020

오버라이딩(Overriding) 오버라이딩(Overriding)이란 상위 클래스에 선언되어 있는 메소드를 하위 클래스에서 동일하게 선언하여 사용하는 것입니다. 메소드의 이름, 시그니처가 동일하지만 하위 클래스에서 구현내용을 재정의 하여 사용할 수 있습니다.

상속(Inheritance)

August 06 2020

상속(Inheritance) 자바에서 상속이라는 것은 내용이 작성되어 있는 클래스를 다른 클래스에서 사용할 수 있도록 만들어 주는 것입니다 또한 상속을 사용하면 코드의 재사용을 통해 코드의 중복을 없앨 수 있고, 유지보수가 매우 용이해지는 장점이 있습니다. 하나의 클래스만 잘 ...

생성자(Constructor)

August 05 2020

생성자 생성자란 객체 생성시 제공되는 초기화 기능이라고 생각하면 됩니다.

자바의 변수종류(Variables)

August 03 2020

변수(Variable) 자바에서 변수는 값을 저장하기 위한 공간이라고 생각할 수 있습니다. 그리고 변수들은 데이터 타입(Data Type)을 가지게 됩니다. 우선 변수에 대해 알아보기 전에 자바의 데이터 타입에 대해 알아보겠습니다.

중첩 클래스(Nested Class)

August 01 2020

중첩 클래스(Nested Class) 중첩 클래스는 단어 그대로 클래스가 중첩되어있는 상태입니다. 하나의 클래스안에 또 다른 클래스가 정의되어 있는 형태라고 생각하면 됩니다. 이러한 중첩클래스 3가지 종류가 있습니다.

JVM 메모리 구조(JVM Memory Structure)

July 31 2020

JVM (Java Virtual Machine) 자바 프로그램은 JVM을 통해 실행됩니다. 자바 프로그램을 실행하면, JVM은 운영체제로부터 메모리를 할당받아 프로그램을 실행합니다. 오늘은 자바 프로그램을 실행하면 JVM의 메모리 구조에 대해 알아보겠습니다.

형변환(Type Casting)

July 27 2020

목차 1. 형변환이란? 2. 기본형 표현범위 포함관계 3. 형변환 종류 4. 유의사항 5. 연습문제

맨 위로 이동 ↑