디지털 오디오의 등장
MIDI가 컴퓨터 음악 분야에서 팔방미인인 것만은 틀림없지만 그 나름대로의 한계가 있는데 그 중에서도 가장 큰 한계는 컴퓨터를 녹음기(Sound Recoder)로서 사용할 수 없다는 것이다. 물론 아미가 음악이 그와 비슷한 역할을 하지만 그것은 이미 녹음된 음색을 악기로 사용하는 것에 중점을 두고 있다. 또한 MIDI 음악에서도 샘플러라는 장비를 사용하기도 하지만 이것 역시 외부 녹음 장비를 악기로 사용하는 것에 불과하다. 그리고 그것을 활용함에 있어서도 비용이 많이 든다는 장애가 있다. 실제로 녹음/재생 겸용의 샘플러는 일반 신디사이저의 2배 이상의 가격을 주어야만 살 수가 있다.
그러나 다행스럽게도 최근에는 저렴한 비용으로 자신의 PC를 사운드 레코더로서 변신시킬 수 있는 방법이 생겼다. 바로 사운드 카드에 의한 '디지털 오디오 편집(Digital Audio Editing)'이 그것이다. 이것은 외부의 소리를 녹음하여 컴퓨터가 제어할 수 있는 디지털 신호로 변환시켜주는 기술이다.
이 디지털 오디오 기술의 장점은 우선 소리를 맑게 채취할 수 있다는 것이고, 두 번째로는 음질의 손실이 없이 여러벌 복사할 수가 있다는 것이다. 그러나 무엇보다도 가장 큰 장점은 편집의 용이함이다. 녹음된 데이터를 보통 웨이브 파일(Wave File)이라고도 흔히들 부르는데 이 파일은 일반 컴퓨터의 문서 파일과도 같이 마음대로 자르고 복사하고 붙이고 수정할 수가 있다. 이러한 편리함으로 인해서 요즘은 다른 컴퓨터 음악 분야에서 이 데이터를 활용하기도 한다. 그 좋은 예가 PCM 아미가 음악의 악기 파일이나 MIDI 시퀀서의 웨이브 이벤트, Game 프로그램의 사운드 효과, 하드 디스크 레코딩, AVI 파일에서와 같은 멀티미디어 프리젠테이션의 활용 등이다.
최근의 사운드 카드들은 이 디지털 오디오 레코드 기능을 기본적으로 제공하며 그것을 위한 녹음/편집 프로그램도 번들로 제공한다. 그러나 보다 다양하고 흥미진진한 작업을 원한다면 전문 편집 프로그램을 사용해보는 것도 좋은 방법일 것이다.
디지털 오디오의 입문
(1) 디지털 녹음기의 원리
디지털 오디오의 녹음 과정은 아날로그 녹음과 같다. 즉, 외부의 음파가 마이크와 같은 입력기기를 거치면 연속적인 전압차를 갖는 전자신호로 변환된다. 음파의 변화량과 전자신호의 전압 변이량은 서로 상응한다. 아날로그 녹음기의 녹음헤드는 이 신호를 자성체의 테이프 위에 자기의 변화로서 기록한다. 그러나 디지털 녹음기는 이 전압 변이를 자기가 아닌 연속된 이진수의 번호들로서 기록한다. 이것이 아날로그 녹음과 디지털 녹음의 가장 큰 차이점이다. 그리고 디지털 녹음기의 부품 중에서 아날로그 신호를 디지털 신호로 변환하는 기기를 'A/D 컨버터'라고 일컫는다.
(2) 샘플링의 비트와 비율
아날로그 음파를 디지털 신호로 녹음/변환하는 일을 일반적으로 '샘플링(Sampling)'이라고 일컫는다. 디지털 녹음 방식은 아날로그 녹음 방식에 비해서 잡음이 없고 데이터 편집이 수월하다는 장점들이 있지만 한가지 단점이 있다면 음파의 손실이 있다는 것이다. 샘플링의 원리를 잘 모른다면 이 말이 무슨 뜻인지 잘 모를 것이다.
컴퓨터나 사운드 카드와 같은 디지털 장비들은 소리를 좀 투박하게 다룬다. 여러분은 '모자이크' 방식의 그림을 본 일이 있을 것이다. 모자이크 그림은 멀리서 보면 자연스럽고 원활한 선들로 그려진 것 같지만 가까이서 보면 커다란 재료들이 듬성듬성 모여서 이루어져 있다. 이 재료들의 크기를 작게하면 할수록 그림은 더욱더 자연스럽고 부드러운 윤곽을 띠게 될 것이며 그 만큼 보기에도 편할 것이다. 다시말해서 얼마만큼 높은 분해도(또는 입자들의 밀도)를 갖느냐에 따라서 그림의 실제성의 차이가 난다.
① 샘플 비트
소리에 있어서도 마찬가지다. 디지털 녹음기는 그 특성상 소리를 모자이크 그림처럼 작은 데이터 단위로 쪼개어 녹음한다. 특히 소리의 진폭(음량)을 연속적으로 표현하지 않고 단계별로 측정/표현할 때 이러한 정도를 '샘플비트(Sample Bit)'라고 한다.
만약 어떤 사람이 '도'라는 음을 발성하였다면 8비트 방식은 이것을 28=256개의 음분해도로 갖는 값으로 녹음한다. 그렇다면 16비트는 이보다 두배의 음분해도를 가질까? 그렇지 않다. 그 보다도 훨씬 더 많은 값인 216=65,536개의 음분해도로 녹음하는 것이다. 따라서 8비트보다는 16비트의 음이 더 섬세하고 부드러운 소리를 낸다. 그리고 보통 16비트 정도의 분해도라면 사람의 귀로 듣기에 아무런 거슬림이 없기 때문에 오디오 CD에서 사용하는 방식이기도 하다.
사람이 처음에 발성한 '도'라는 음은 무한비트에 가까운 아날로그 음성 신호이며 이것을 8비트나 16비트 등으로 숫자화하여 표현하는 것이 디지털 음성 신호이다. 참고로 우리가 '8비트, 16비트, 32비트 컴퓨터'라고 말하는 경우도 있는데 그것들은 카드의 슬롯에서 확인할 수 있는 데이버 버스의 비트로서 쉽게 말하자면 CPU와 주변기기 간의 통신 회선수라고 할 수 있다. 따라서 디지털 음성 신호의 비트와는 서로 다른 개념이다.
② 샘플 비율
그러면 11KHZ나 44KHZ라고 말하는 것은 무엇일까? 이것은 샘플 비율(rate)이라고 하는데 소리를 1초 동안 몇 번 측정(녹음)했는가를 의미하다. 비트가 어느 한 순간의 음성 주파수의 진폭(높낮이)의 분해도를 나타내는 것이라면 샘플 비율는 1초 동안의 주파수의 길이에 대한 분해도라고 생각하면 된다.
모자이크 그림이 한 장 있다면 이것은 정지화상이다. 그런데 조금씩 변화하는 여러 장의 그림들이 우리 눈 앞에 보여진다면 동화상이 될 것이다. 이것은 영화의 원리이기도 한데 보통 영화는 1초에 24장의 사진을 보여주는 24 프레임 방식을 많이 사용한다. 그래도 우리는 아무런 지장없이 영화감상을 할 수가 있는데 소리는 이와 달라서 더 많은 프레임을 요구한다. 오디오 CD에서는 자그마치 44,000장의 프레임을 사용한다. 이 때를 우리는 '44KHZ로 녹음되었다'라고 말한다. 만약 11,000장의 음성 프레임 형태라면 11KHZ로 녹음된 것인데 그만큼 음질이 상대적으로 떨어지지만 대신에 데이터량이 감소한다는 이점이 있다. 그리고 모노보다는 스테레오가 두배 더 많은 데이터량을 요구한다.
(예)다음은 소리를 1초에 26번 측정하고, 진폭의 변화를 32단계로 나누어 표현한 예이다. 이 경우에는 샘플 비율이 26Hz이고, 샘플 비트가 5비트(25=32)이다. 물론 이렇게 낮은 샘플 비트와 비율은 거의 사용되지 않는다.
<샘플 비율(1초동안의 측정수), 샘플 비트(전체 진폭의 변화단계)>
측정 횟수의 간격이 더 가까워지고 진폭의 변화 단계가 더 세분화될수록 소리 역시 더욱더 매끄러워진다.
현재 시중의 오디오 CD와 사운드 카드 등에서 사용되는 최고의 음질은 16비트 44.1KHZ로 녹음된 것이 일반적이며 DAT(Digtal Audio Tape) 장비에서는 최고 48KHz까지 녹음할 수도 있다.
(3) 파형의 여러 요소들
대부분의 디지털 오디오 프로그램들은 샘플 파형의 모습을 다음과 같은 형식으로 나타낸다.
<파형의 여러 요소들>
물론 이것은 소리가 이러한 모양을 하고 있다는 것은 아니다. 소리는 우리의 눈에 보이지 않으며 단지 우리의 귀에 있는 고막을 진동시키는, 일정한 진동수를 가진 공기 중의 파동일 뿐이다. 따라서 우리는 그것의 모습을 파악하거나 그릴 수는 없지만 그 몇가지 특성들(주파수,주기,시간,..)을 숫자화한 후 이것을 그래프로 나타낼 수는 있다. 그것을 표현하기 위한 가장 일반적인 형태가 바로 앞의 그림과 같은 형식이다.
그러면 우리가 측정할 수 있는 소리의 특성에는 어떠한 것들이 있는지 알아보자.
주파수(Frequency)와 음정(Pitch)
대부분의 소리는 반복적인 패턴을 나타내는 파형을 갖고 있다. 각각의 패턴들은 소리의 단일한 진동을 나타내는데 이것을 주기(Period) 또는 싸이클(cycle)이라고 한다. 그리고 1초에 몇 번의 주기가 있는가, 다시말해서 몇 번 진동하는가를 나타낼 때 이것을 주파수(Frequency)라고 한다. 그리고 이 주파수의 나타낼 때 사용되는 단위가 헤르츠(Hz)이다. 파형이 1초에 1,000번 진동하면 주파수는 1,000Hz 또는 1KHz가 된다. 사람이 들을 수 있는 주파수 영역은 대략 20Hz에서 20KHz 사이이다.
파형의 음정(Pitch)은 주파수와 비례적인 관계가 있다. 즉, 주파수가 높을수록 음정도 높아진다.
진폭(Amplitude)과 세기(Loudness)
어느 한 순간에 나타나는 파형의 강도를 나타낸다. 주파수와 함께 파형을 측정하는 고유한 단위이며 파형의 강도를 나타내는데 그래프에서는 세로의 폭으로 표시된다. 소리의 세기(Loudness)는 진폭과 밀접한 관련이 있기는 하지만 이것은 다소 주관적인 개념이다.
일반적으로 우리의 귀가 느끼는 소리의 세기는 주파수의 높이에 영향을 받는다. 그리고 사람마다 선호하는 주파수가 서로 다르다. 그래서 두 개의 소리가 들려왔을 때 소리의 세기 역시 차이가 난다. 예를 들면 높은 음정의 소리는 낮은 음정의 소리보다 더 세게 들린다.
이 소리의 세기를 나타내는 단위가 바로 데시벨(dB)이다. 이것은 단일한 소리의 진폭을 나타내기 보다는 그 소리의 크기와 다른 표준 비교치 사이의 비율을 나타내는 대수적인 척도이다. 어떠한 소리가 처음 인지되었을 때의 값을 0dB로 규정하고 그 이후의 소리들은 이 값과의 비교에 의해서 표시된다. 일반적으로 우리가 인지할 수 있는 범위는 0dB에서 120dB 사이이다. 보통 어느 한 소리가 들린 후 그 이후의 소리는 2∼3dB 정도의 차이가 나야만 우리를 소리의 세기가 변화된 것을 인지할 수가 있다.
배음 성분(Overtones)
파형의 주파수와 진폭이 같으면 같은 음색의 소리가 나는 것일까? 그렇지 않다. 음색을 결정하는 또 하나의 요소로서 배음(倍音) 성분이라는 것이 있다. 다양한 음색을 만들어지려면 소리의 기본이 되는 사인파에 다른 여러 주파수들이 가미되어야만 한다. 예를 들면 진동하는 현(string)에서 나는 소리에는 주요 음색을 결정하는 기본 배음뿐만 아니라 그 위에 여러 가지의 다른 배음들이 뒤섞여 있다. 이것은 소리를 내는 현이 단일한 진동으로 이루어지지 않고 그 길이를 여러 등분으로 나뉘어 진동하기 때문에 발생하며 그로 인하여 여러 종류의 배음이 발생하는 것이다. 결국 우리가 듣는 악기의 음색들은 배음들이 뒤섞인 복잡한 파형의 결과이며 반대로 그 파형은 다시 단순한 여러 파형들로 분석해낼 수가 있는데 이러한 원리를 푸리에의 해석(Fourier analysis)라고 한다.
엔벨로프(Envelope)
발생된 음은 시간이 경과됨에 따라서 음정, 음량, 음색 등이 변한다. 이러한 변화를 엔벨로프라고 하며 그 변화는 보통 4단계로 나뉜다. 아래의 그림은 음량의 엔벨로프를 예로 든 것이다.
Attack
건반을 눌렀을 때 최대 레벨로 올라갈 때까지 걸리는 시간
Decay
최대 레벨에서 어느 정도 낮아지기까지 걸리는 시간
Sustain
건반을 계속적으로 누르고 있을 때 일정한 레벨이 유지되는 시간
Release
건반을 떼었을 때 레벨이 소멸되는 시간
(4) 샘플 비율과 PC 시스템
디지털 오디오 녹음이란 결국 아날로그 신호를 2진수의 데이터로 변환하는 것이다. 따라서 그 작업은 컴퓨터의 데이터 처리 능력과 깊은 관계가 있다. 자신의 사운드 카드가 단지 16비트 스테레오 샘플링을 지원한다고 해서 최고의 음질로 녹음을 할 수 있는 것이 아니다. 사운드 카드의 작동을 지원해주는 컴퓨터의 처리 능력도 마찬가지로 월등해야만 한다. 그 가운데서도 특히 CPU와 하드디스크의 속도에 크게 좌우된다. 286AT 컴퓨터에 있어서는 22KHZ로는 스테레오 녹음이 가능하지만 44KHZ로는 모노로만 녹음이 가능하다. 그러나 386DX 이상의 컴퓨터에서는 일반적으로 44KHZ 스테레오 녹음이 가능하다.
그리고 다음의 표는 샘플 비율과 그에 따른 하드디스크의 소모량을 나타낸 것이다.
샘 플 비 율
모 드
데이터량 (1분당)
8비트 11KHZ
모노
650KB
8비트 22KHZ
모노
1.3MB
8비트 22KHZ
스테레오
2.6MB
8비트 44KHZ
모노
2.6MB
8비트 44KHZ
스테레오
5.25MB
16비트 22KHZ
모노
2.6MB
16비트 22KHZ
스테레오
5.25MB
16비트 22KHZ
모노
5.25MB
16비트 44KHZ
스테레오
10.5MB
(5) 샘플의 재생
녹음이 완료된 샘플 데이터를 재생하는 것은 녹음의 과정을 거꾸로 진행시키는 것과 같다. 먼저 하드 디스크에 숫자들로 저장되어 있는 샘플 데이터를 사운드 카드의 DAC(Digital-to-analog converter)에 보낸다. 그러면 DAC에 의해서 이 숫자들은 연속된 전압 변이의 형태로 변환되어 소리의 원형처럼 부드러운 형태로 윤곽이 잡히고 다시 로우 패스 필터(Low-pass-filter)라는 장치에 의해서 좀 더 매끄러운 형태가 된다. 이것이 앰프와 스피커를 통하여 우리의 귀로 들을 수 있는 아날로그 신호가 되는 것이다.
(6) 샘플링 작업에서 주의할 점들
디지털 녹음은 나름대로의 장점들도 많지만 그렇게 완벽한 것만은 아니다. 앞에서 배운바와 같이 연속적인 아날로그 신호를 비연속적이지 않은 2진수의 데이터로 변환하기 때문에 근본적으로 피할 수 없는 문제점들이 있으며, 또한 녹음 작업시 꼭 유의해야 할 사항들이 몇 가지 있다. 그리고 대부분의 편집 프로그램들에는 그러한 문제점들을 보완할 수 있는 기능들을 포함되어 있다. 따라서 그것들을 효과적으로 활용하기 위해서는 각 개념들에 대한 정확한 이해가 필요하다.
양자화 잡음(Quantization Noise)과 디더링
아날로그 신호를 디지털 신호로 변환하는 것을 이른바 양자화(Quantization)라고 부른다. 특히 너무 낮은 샘플 비트로 음을 녹음하면 양자화된 디지털 데이터들은 비연속적이기 때문에 각 비트 사이에는 상대적으로 큰 공간이 생긴다. 따라서 이러한 데이터를 재생하기 위해서 다시 아날로그 신호로 변환할 때에 잡음이 발생하는데 이것을 양자화 잡음(Quantization Noise)라고 한다.
양자화 잡음을 감소시키기 위한 작업을 디더링(Dithering)이라고 하며 보통 8비트 샘플에 적용한다.
Nyquist Limit와 Aliasing
양자화 잡음이 샘플 비트와 연관된 것이라면 나이퀴스트 프리퀀시(Nyquist Frequency)와 알리아싱(Aliasing)은 샘플 비율과 관련이 있다. 샘플 주파수의 한 주기 안에는 반드시 두 개 이상의 샘플 포인트가 존재해야한다.
<두개 이상의 샘플 포인트가 있어야한다.>
만일 두 개 미만인 경우에는 소위 알리아싱(Aliasing)이라고 일컫는 소리의 왜곡이 발생한다. 그리고 이 주파수의 한계를 나이퀴스트 한계(Nyquist Limit)라고 한다. 디지털 샘플링 작업에서 주파수의 한 사이클당 두 번 이상의 샘플이 이루어지지 않으면 각 샘플 포인트를 이은 결과가 원음의 파형 형태를 충분히 재현하기에 모자라므로 음질이 왜곡되는 것이다.
<샘플비율이 낮을 때: 파형이 부정확하게 녹음된다.> <샘플비율이 높을 때: 파형이 더 정확하게 녹음된다.>
나이퀴스트 한계는 샘플 비율의 절반값이다. 따라서 높은 샘플 비율의 데이터를 낮은 주파수로 변환할 때 나이퀴스트 한계 위에 있는 주파수들은 제대로 변환되지 못한다. 따라서 그 주파수들을 제거해줘야 한다. 예를 들어서 44KHz를 22KHz로 변환하려면 11KHz 이상의 주파수를 제거해야만 한다. 그래서 사운드 카드에는 이러한 작업을 위한 장치로서 로우 패스 필터를 가지고 있다. 이것을 다른 말로 안티 알리아싱 필터(Anti-aliasing Filter)라고도 부른다.
클리핑(Clipping)
샘플링 작업시 적절한 녹음 레벨을 설정하는 일을 가장 기본적이며 중요한 일이다. 녹음 레벨이 너무 낮으면 퀀티제이션 잡음이 증가하고, 너무 높으면 파형의 극점(Peak; 최고점과 최저점)이 깎여 버리는 클리핑이 발생하여 음이 심하게 왜곡된다.
<너무 낮은 녹음레벨: 퀀디제이션 잡음이 증가한다.> <너무 높은 녹음레벨: 클리핑 현상이 발생한다.>
샘플 파일의 종류
엄밀한 의미에서 웨이브 파일들을 음악 파일이라기 보다는 음성 파일에 속한다. 그러나 최근의 아미가 음악에서는 악기 파일의 소스가 되기도하며, 윈도우즈용 케익워크와 같은 작곡 프로그램들은 이 웨이브 파일을 특별한 음향 효과를 위해서 곡중에 삽입하기도 한다.
① .VOC 파일 (사운드 블라스터 음성 파일)
사운드 블라스터 카드로 녹음하는 PCM 파일이다. 현재는 그 형식상의 한계(8비트, 모노44.1KHz, 스테레오 22KHz)로 인하여 잘 사용되지 않는다.
② 윈도우즈 PCM 파일(.WAV)
대부분의 .WAV 파일들은 RIFF(Resource Information File Format) 규정을 따르고 있다. 이 윈도우즈 PCM 파일에는 압축률이 낮은 PCM(pulse code modulation) 데이터가 담겨진다.
③ 마이크로 소프트 ADPCM 파일 (.WAV)
이 파일에는 채널당 4비트로 압축된 데이터가 담겨지는데 파일을 불러들이면 각 채널은 16비트 데이터로 압축이 풀린다. 그래서 이 파일에서는 8비트보다 16비트로 저장하는 것이 더 좋은 음질을 얻을 수 있다. 그리고 또한 8비트만을 지원하는 사운드 카드에서 16비트 데이터를 연주할 때에도 아주 신속하게 8비트 형식으로 변환된다.
♣ ADPCM
ADPCM(Adaptive Delta Pulse Code Modulation)는 오디오 데이터를 압축하는 방식 중 하나이다. 비록 동일한 ADPCM 방식이라고는 하지만 여러 가지 형태로 응용되고 있기 때문에 ADPCM 파일에는 많은 종류가 있다. 그래서 각 포맷들은 서로 호환되지 않는다.
④ IMA/DVI ADPCM 파일 (.WAV)
마이크로 소프트의 ADPCM보다 다소 빠른 방식으로 16비트 데이터를 4비트로 압축하며 어떤 샘플이 압축되느냐에 따라서 더 나은 점도 있고 더 좋은 점도 있다. 잘 쓰이지는 않지만 3비트 압축 방식도 지원한다.
⑤ CCITT mu-Law/A-Law 파일 (.WAV)
이 파일은 16비트의 원음을 8비트로 압축한다. 음질은 8비트와 16비트 중간 정도가 된다. 그래서 다른 8비트 PCM 파일보다는 더 높은 신호대 잡음비를 얻을 수가 있지만 16비트에서는 다른 16비트 파일보다 더 많은 소리의 왜곡이 발생한다. 그러나 4비트 ADPCM보다는 확실히 더 좋은 음질을 얻을 수가 있다.
⑥ 애플 AIFF 파일 (.AIF)
AIFF(Audio Interchange File Format)는 애플사의 매킨토쉬에서 사용되는 파일이다. 대부분의 네트워크 프로그램들이 이 파일에 있는 매킨토쉬용 리소스 정보를 제거하기 때문에 PC용으로 변환할 때 가장 많이 이용된다.
⑦ 8-bit signed raw 파일 (.SAM)
헤더가 없는 8비트 raw 파일로서 아미가 음악용 MOD 파일을 만들 때 주로 사용된다.
⑧ Next/Sun CCITT mu-Law,A-Law,PCM 파일 (.AU)
NeXT and Sun Sparc 스테이션 컴퓨터에서 사용되는 파일이다. 파일 데이터에 관한 부수적인 형식들(8비트 선형,16비트 선형,u-Law)이 많이 있다.
⑨ SampleVision 파일 (.SMP)
이 파일은 터틀비치사의 SampleVision이라는 프로그램에서 사용되는데 모노 16비트만 지원하며 루프에 관한 정보까지도 저장할 수 있다.
⑩ Dialogic ADPCM 파일 (.VOX)
4비트로 압축저장되는 ADPCM 파일이다. 낮은 샘플 비율에 적합하며 8KHz 모노 16비트까지 저장할 수 있다. 헤더가 없기 때문에 VOX 확장자를 갖는 대부분의 파일들을 이 형식으로 간주할 수 있다.
⑪ Raw PCM 파일 (.PCM)
파형에 관한 헤더 정보가 없고 단순한 PCM 데이터만을 갖고 있기 때문에 편집 프로그램으로 불러들일 때 샘플 비율과 비트, 채널 등을 지정해주어야 한다. 또한 어떠한 샘플 파라미터를 설정해주는냐에 따라서 여러 가지로 변형된 소리가 난다.
⑫ Gravis Patch File (.PAT)
그라비스 울트라 사운드 카드에 사용되는 음색 패치 파일이다.
| |