정보보안-이론/씹정세

[씹정세] 비트가 머에여? - 정보의 크기

 

* 본 포스팅은 전 포스팅을 읽고 오면 더 좋습니다! *

 

기술이 비약적으로 발전함에 따라 자료의 크기도 어마어마 해지고 있다. 우리도 너무 옛날 자료만 봐왔으니까 채신 기술 키워드 하나 보고 가자. 이름하여 "빅데이터", 빅데이터는 다음 3가지를 특징으로 한다.(흔히 3V라고 한다.)

  • Volume : 엄청난 자료의 양
  • Velocity : 엄청난 데이터의 입출력 속도
  • Variety : 엄청난 타입의 자료들

 

그 중 오늘 포스팅과 관련된 Volume은 특히 테라 단위를 넘어 페타바이트를 넘나드는 수준으로 엄청난 속도의 데이터 펌핑이 트렌드로 떠오르고 있다.

 

씹정세 3번째 시간, 이렇게 커다란 정보들로 발전하기까지 조그마한 비트 하나에서 시작된 그 한걸음부터 오늘은 컴퓨터에서의 정보의 단위를 알아보자.


SI 단위

공학적으로 단위를 표현하는 방법은 SI접두어 표기법을 따른다. SI는 국제단위계라는 전 세계에서 표준화된 단위를 말한다. 기본단위인 길이(m), 질량(kg), 시간(s), 전류(A), 온도(K), 물질량(mol), 광도(cd)를 쓰고, 크기를 쉽게 표현하기 쉽도록 다음과 같은 접두어를 붙인다.

<정보의 크기>

즉 우리가 사용하는 bit(정보의 단위)로 이야기하면 다음과 같다.

1 Tbit = 10^3 Gbit = 10^6 Mbit = 10^9 Kbit = 10^12bit = 1000000000000bit

작살난다.

 

 

bit와 byte

정보의 크기를 표현하기에 bit는 너무나도 작은 단위이다. 따라서 bit를 2의 3 제곱으로 묶은 byte라는 단위가 통상적으로 많이 사용된다.(둘 다 앞글자가 b라, bit는 소문자 b로, byte는 대문자 B로 줄여 부른다.)

 

흔히 3 테라  하드, 2기가 USB 라는건 3 테라"바이트"를 의미하고, 2기가"바이트" USB를 의미한다. 여기서 다음과 같은 재미있는 문제가 발생한다.

 

* 어? 다X소 사장님! 1TB 하드디스크를 샀는데, 연결하면 931GB라고 인식이 돼요!(ㅅㅂ 환불해야 하나요?)

 

이는 2^10=1024인점에서 오류가 발생한다. 2의 10 제곱은 당연하게도 1024이다. 또한 이진법이 사용되는 전자 세상에서는 당연히 이진수 단위로 정보를 끊어 표현하는 게 정확하고 당연스러운 행위이다. 따라서 먼 옛날 선조들께선 2^10인 1024를 1000으로, 10^3으로 대충 유사 값으로 계산을 한 거다!!!!

 

이게 정보가 작은 이전에는 상관이 없었는데, 정보가 기가, 테라 단위로 올라가다 보니 1000/1024인 약 0.97배만큼 차이가 나기 시작한 것이다!(다 X소 사장님이 비트를 밑장 뺀 게 아니라는 말이다.)

이를 해결하기 위해서 GB가 아닌 GiB를 중첩 표기하는 등 노력은 이어지고 있다.

 


이번 씹정세 시간에는 SI표기법과 bit, byte표기법을 알아보았다. 엄청나게 빠른 속도로 컴퓨터 전문가에 가까워지고 있는 여러분들을 칭찬하며, 필자는 다음 씹정세에서 기다리겠다.