인공신경망 구현 전용 하드웨어 절실
■ 기술의 정의 및 분류
1) 인공지능과 인공신경망
존 매카시(John McCarthy)가 1956년 처음 인공지능이라는 용어를 사용한 이래 인공지능 연구는 몇 차례의 부침을 거치며 발전해 왔다. 인공지능은 기호적(symbolic) 인공지능과 신경망(neural network) 기반의 인공지능으로 분류할 수 있다. 기호적 인공지능은 추상적 개념에 대한 기호적 연산을 사용하는 방법론으로 모든 것을 프로그래밍에 의해 처리하고 규칙에 기반을 둔 추론을 바탕으로 결과를 도출한다. 표현에 중점을 두기 때문에 학습이 어렵고, 입력 데이터가 불완전할 경우 적용하기 어려우며, 순차적이고 복잡한 연산을 사용하는 기존의 컴퓨팅 하드웨어와 잘 맞는다. 이에 반해 신경망 기반 인공지능은 대규모의 단순한 계산으로 추론을 수행하고, 간단하지만 효과적인 학습 방법을 갖추고 있다. 불완전한 입력 및 학습데이터에 대해서도 추론과 학습이 가능하여 범용성이 크지만, 초대규모 병렬 연산이 필수적이어서 기존의 컴퓨팅 하드웨어와 잘 맞지 않는다는 어려움이 있다.
기호적 인공지능과 신경망 기반 인공지능은 오랜 시간을 두고 대립하며 발전해 왔지만, 현재는 신경망 기반 인공지능이 심층신경망(deep neural network, DNN)의 도입과 이의 성공적인 학습 방법(deep learning) 개발에 힘입어 압도적인 우위를 차지하고 있다. 인공신경망은 1950년대 말 로젠블라트(Rosenblatt)가 신경계를 모방하여 퍼셉트론(perceptron)이라는 전용 하드웨어로 구현하였으나 가변저항을 시냅스로 사용하고 학습을 위해 전기 모터를 사용하는 등 거대하고 축소가 어려운 하드웨어로 말미암아 지속적인 발전을 이루지 못하고, 그 수학적 모델만이 디지털 컴퓨터에서 소프트웨어 형태로 살아남게 되었다. 퍼셉트론은 초창기에 큰 기대를 받았지만, 1960년대 말에 제대로 인식하지 못하는 패턴(예를 들어 선형 분리가 가능하지 않은 XOR 문제)이 존재한다는 것이 밝혀지면서 상당한 기간 동안 침체기를 겪게 되고, 다른 한편으로 디지털 컴퓨터에 적합한 논리연산을 기반으로 한 기호적 인공지능이 발전하면서 인공신경망에 대한 관심은 사라져 갔다. 1980년대에 들어서 다층 퍼셉트론(multi-layer perceptron)을 학습시킬 수 있는 오차 역전파(error back-propagation) 기법이 도입되자 인공신경망에 대한 관심이 급증하게 되었다. 획기적인 성공요인이 될 수 있었던 오차 역전파 기법의 등장에도 불구하고 인공신경망의 부흥기는 오래 가지 못했는데, 그 이유는 오차 역전파 기법이 3층이 넘는 심층신경망에 적용하기 어렵다는 치명적인 약점을 가진 것으로 간주한 데 있었다. 이 약점의 근원이 오차 역전파 기법 자체에 있는 것이 아니라, 퍼셉트론에서 사용하는 활성함수(activation function)의 문제라는 것을 알아내는데 무려 20년 가까운 시간이 걸렸다. 2010년 정류선형유닛(rectified linear unit, ReLU)이라는 활성함수가 도입되면서 수천 층의 심층신경망에서도 완벽한 학습이 가능하게 되었고, 이것이 인공신경망의 압도적 우위를 가능하게 하는 반석이 되었다. 인공신경망이 인공지능의 주류로 자리 잡으면서, 순차적이고 복잡한 연산을 하는 중앙연산장치(central processing unit, CPU)가 대규모 병렬 단순연산을 필요로 하는 인공신경망에 적합하지 않다는 사실이 명백해졌고, 이를 해결하기 위해 상당량의 병렬 연산이 가능한 그래픽처리장치(graphic processing unit, GPU)를 사용하고 있지만, 신경망이 조금만 커지면 성능이 크게 부족함과 동시에 생물학적 신경망에 비해 엄청나게 큰 에너지를 사용하게 된다. 인공신경망을 구현하는 전용 하드웨어가 절실히 필요한 시점인 것이다.
2) 인공지능 반도체의 정의
인공지능 반도체란, 인간의 신경계를 모사하여 기억과 학습이 가능한 인공신경망을 구현하는 반도체 집적회로를 뜻한다. 인공지능 시스템은 CPU, GPU와 같은 범용 하드웨어를 사용하고 그 위에서 구동되는 소프트웨어로도 구현 가능하지만, 인공신경망을 위해 개발된 새로운 대규모 병렬 컴퓨팅 하드웨어인 인공지능 반도체로 구현하는 것이 에너지 면에서 훨씬 효율적이며 동시에 고속 처리가 가능하다.
3) 인공지능 반도체의 분류
인공 지능 반도체는 다음과 같이 1, 2세대로 구분할 수 있다.
<1세대 인공지능 반도체>
1세대 인공지능 반도체는 대규모 병렬 컴퓨팅과 저전력 연산을 위한 CMOS (Complementary Metal Oxide Semiconductor) FET (Field Effect Transistor) 기반의 반도체 집적회로로서, 인공지능 알고리즘을 효율적으로 구현할 수 있는 집적된 메모리와 연산기 구조가 주축이 된다. 1980년대 후반 인공신경망 부흥기에 반도체 집적회로(integrated circuit, IC)로 인공신경망을 구현하려는 많은 시도가 이루어 졌는데 이를 1세대 인공지능 반도체의 태동기로 볼 수 있을 것이다. 이후 인공신경망 전반의 침체기가 시작되면서 인공지능 반도체 연구도 쇠퇴하였다가, 2000년대 후반에 이르러서야 본격적인 연구가 재개되었고, 최근에 신경처리장치(neural processing unit, NPU), 텐서처리장치(tensor processing unit, TPU) 등의 인공신경망 전용 집적회로가 제작되기 시작하였다. 이들 집적회로는 현재 양산되는 메모리를 사용하거나 데이터 전송 대역폭을 넓힌 메모리를 사용하고 있으며, 향후 메모리에 연산기를 집적하는 형태(prosessor in memory, PIM)로도 구현될 것으로 예상된다.
<2세대 인공지능 반도체>
2세대 인공지능 반도체는 초대규모 병렬 컴퓨팅과 초저전력 연산이 가능한 새로운 패러다임의 신경망 집적회로로서, 1세대와는 달리 소재와 소자 수준에서부터 혁신적인 접근이 이루어지며, 회로와 시스템에서도 생물학적인 신경망의 에너지 효율과 연산 능력에 근접한 성능을 구현하는 것을 목표로 하고 있다. 생물학적인 신경망을 보다 정확하게 모방하려는 시도라는 의미에서 뉴로모픽 시스템(neuromorphic system)이라고도 한다. 2000년대 후반부터 연구가 시작되어 아직은 초기 단계로 볼 수 있고, 다양한 소재와 소자를 이용한 시냅스와 뉴런 연구가 진행되고 있으며, 시스템 면에서도 폰 노이만 구조를 탈피하여 완전한 대규모 병렬 연산 구조를 채택하고 있다.
■ 기술의 원리
인공지능 반도체는 인공신경망을 집적회로로 구현한 것이고, 인공신경망은 생물학적인 신경망(biological neural network)을 모방하여 만들어진 것이므로, 뇌 수준의 신경망 연산능력을 가지는 초소형, 고효율의 하드웨어를 설계하기 위해서는 생물학적인 신경망에 대한 이해가 필수적이다. 그 첫 단계는 생물학적 신경망의 빌딩블록인 뉴런과 시냅스, 그리고 이들이 연결되어 만들어내는 신경망 구조에 대해 살펴보는 것이다.
그림 1(a)에서와 같이 뉴런은 수상돌기(dendrites)를 통하여 다른 여러 뉴런으로부터 오는 신호를 받아서 모두 더하고 이를 시간 적분(temporal integration)한다.
이렇게 적분된 신호가 문턱값(threshold)을 넘으면 뉴런은 그림 1(b)에서와 같은 스파이크(spike) 전압을 발생시키게 된다. 스파이크는 약 100 mV의 크기와, 1~2 ms의 지속시간을 가진다. 스파이크는 축색돌기(axon)를 통하여 다음 뉴런으로 전달되며, 전달되는 동안 크기와 형태가 변하지 않는다.
뉴런의 축색돌기가 다른 뉴런의 수상돌기와 만나는 지점에 시냅스가 있다. 축색돌기에 의해 스파이크가 시냅스에 도달하면, 신경전달물질(neurotransmitter)의 분비를 촉진(trigger)하게 된다. 신경전달물질은 수용체(receptor)에 의해 검출되고 시냅스의 강도(strength)에 따라 가중치(weight)를 곱한 신호가 다음 뉴런으로 전달된다.
신호에 가중치를 곱하고 다음 뉴런으로 전달해 주는 역할 이외에 시냅스는 단기(short-term) 및 장기(long-term) 기억장치(memory)의 역할을 한다.5) 단기 기억은 스파이크 이후에도 남아있는 신경전달물질에 의해 구현되는 것으로 알려져 있고, 장기 기억은 수용체 수 또는 시냅스 구조의 변화로 인해 시냅스 강도가 달라지는 현상으로 알려져 있다.
장기 기억에서 시냅스 강도의 조절이 일어나는 주된 메커니즘(mechanism)은 스파이크 시점 의존 가소성(spike-timing-dependent plasticity, STDP)이다.
시냅스의 STDP 과정에서 시냅스 이전(pre-synaptic) 뉴런의 스파이크가 시냅스 이후(post-synaptic) 뉴런의 스파이크보다 먼저 발생하면, 이전 뉴런의 신호가 이후 뉴런의 신호 발생에 기여한 것이므로, 해당 시냅스의 연결강도는 강화된다. 반대로 이전 뉴런의 스파이크가 이후 뉴런의 스파이크보다 나중에 발생하면 시냅스의 연결강도는 약화된다. 따라서 STDP는 “동시에 스파이크를 발생시키는 뉴런 사이에 있는 시냅스의 강도를 증가 시킨다”는 헤브(Hebb)의 규칙에 인과율(因果律, causality)이 추가된 것으로 볼 수 있다. 아래 그림은 STDP 특성을 보여주는 그래프로, 이전과 이후 스파이크의 시점차가 작을수록 연결강도의 변화(ΔW)가 큼을 알 수 있다.
생물학적인 신경망은 위 그림에서와 같이 뉴런이 시냅스에 의해 다층구조로 연결되어 형성된다.
인간 뇌의 대뇌피질은 6층으로 구성되어 있으며 대략 1.4×10^10개 정도의 뉴런으로 이루어져 있는데, 뇌의 영역에 따라 층별 두께가 다르며, 성장 단계에 따라서도 구조의 차이를 보인다. 각 층은 단순한 반복 적층의 형태가 아니며, 연결도 한 층에서 바로 다음 층으로만 이루어지는 것이 아니라 층을 건너뛰어 형성되기도 한다.
생물학적 신경망에 대한 설명이 되었으니, 이제 인공신경망의 빌딩 블록인 퍼셉트론에 대하여 살펴보자. 아래 그림은 앞에서 언급하였던 로젠블라트가 제안한 퍼셉트론의 개념도이다. 퍼셉트론은 입력 신호에 시냅스 가중치를 곱한 후 모두 더하고, 그 결과에 활성함수(activation function)를 적용하여 출력하는 장치로, 시냅스와 뉴런의 기능을 모방하여 만들어졌다. 여기서 입력 신호는 시냅스 이전(pre-synaptic) 뉴런의 출력 신호이고, 출력 신호는 시냅스 이후(post-synaptic) 뉴런의 입력 신호가 된다. 활성함수는 뉴런의 스파이크 생성 기능을 모방한 것으로 초기에는 그림에 있는 것과 같이 스텝 함수(step function)가 사용되었고, 이후 시그모이드(sigmoid) 함수를 거쳐 현재 정류선형유닛(ReLU)이 사용되고 있다. 활성함수가 스텝 함수이면 가중된 입력의 합이 문턱값(threshold)을 넘을 때 1을 출력하고 넘지 않을 때 0을 출력하며, 활성함수가 정류선형유닛이면 가중된 입력이 문턱값을 넘을 때 가중된 입력값을 그대로 출력하고 넘지 않을 때 0을 출력하게 된다.
CPU 부적합, GPU 성능·에너지 부족 체감
병렬 컴퓨팅 인공지능 반도체 구현 효율적
이러한 퍼셉트론들을 <그림 3-3-2-3>과 유사하게 적층해 놓고 입·출력을 적절히 연결하면 인공신경망이 된다. 인공신경망을 흔히 다층 퍼셉트론(multi-layer prceptron, MLP)이라고 하는 이유가 여기에 있다. 그림 5는 연결된 다층 신경망을 나타낸 것이다. 이 그림에서 뉴런 층은 아래에서 위로 적층되어 있지 않고, 왼쪽에서 오른쪽으로 적층되어 있다. 원형으로 표현된 기호가 <그림 3-3-2-4>의 퍼셉트론이며, 퍼셉트론 사이의 화살표는 연결 관계와 신호의 전달 방향을 나타낸다. 즉 시냅스 이전 층 뉴런의 출력 신호가 시냅스 이후 층 뉴런의 입력신호가 된다는 것을 의미한다. 이 그림에서와 같이 모든 시냅스 이전 층 출력이 모든 시냅스 이후 층 입력과 연결된 신경망을 완전연결망(fully connected network, FCN)이라고 하며, 인공신경망 중에서 가장 기본적인 형태이다.
대부분의 생물학적인 신경망은 완전연결망이 아니다. 예를 들어 대뇌피질의 층당 뉴런 수는 대략 2×109개 정도이므로, 완전연결망을 구성하려면 뉴런 당 2×109개의 시냅스가 필요한데, 이는 뉴런 당 104 정도인 실제 시냅스 수의 2×105 배나 되므로 대뇌피질은 완전연결망일 수가 없다는 결론을 도출할 수 있다. 이러한 결론은 대뇌피질만이 아니라 뇌 전체, 나아가서 생물학적인 신경망 전반에 대해서도 쉽게 확장될 수 있다. 생물학적인 신경망이 부분 연결되어있고, 시각(視覺) 피질(visual cortex)이 규칙적이고 반복된 구조를 가지며, 시각이 이동불변성(translational invariance)을 지닌다는 사실에서 영감을 얻어 창안된 구조가 컨볼루션 신경망(convolutional neural network)이다<그림 3-3-2-6>. 이 그림에 나타낸 신경망은 MNIST(Modified subset of National Institute of Standards and Technology) 손글씨 숫자 인식을 위해서 만들어진 컨볼루션 신경망으로, 입력 이미지는 28×28 크기이고, 입력된 이미지가 0부터 9까지의 각 숫자일 확률을 출력으로 내보내게 되어있다. 컨볼루션 층에서는 그 이전 층에서 출력되는 이미지의 특징(feature)을 추출하고, 풀링(pooling) 층에서는 이를 압축하며, 완전히 연결된 은닉층(fully connected HU)과 출력층에서는 어느 숫자인지를 판별하게 된다. 컨볼루션 신경망은 현재까지 이미지 인식에서 가장 높은 정확도를 보이고 있으며, 이미지 생성과 처리에 있어서 탁월한 능력을 보여 최근에 주목을 받고 있는 생성적대망(生成敵對網, generative adversarial network, GAN)에서도 핵심 구성요소로 사용되고 있다.
인공신경망에서 빌딩블록인 퍼셉트론과 이들의 연결 구조에 못지않게 중요한 핵심 요소는 시냅스 가중치(weight)를 적절히 조절하여 사람이 원하는 기능을 신경망이 수행할 수 있게 해주는 학습(learning) 방법이다. 학습 방법에는 답을 알고 있을 때 사용하는 지도학습(supervised learning)과 답을 알지 못할 때 사용하는 비지도학습(unsupervised learning)이 있는데, 오토인코더(auto-encoder) 등을 사용하면 답을 알지 못하더라도 지도학습이 가능해지므로 여기서는 지도학습 방법의 완결판이라고 할 수 있는 오차 역전파 기법에 대하여 살펴보기로 하자.
오차 역전파 기법에서는 시냅스 가중치(wki)들의 함수로 오차(error, 비용(cost) 또는 손실(loss)이라고도 함)를 정의하고, 이 오차를 줄이기 위해 가중치를 어떻게 변화(Δwki)시켜야 하는가를 계산한다. 이 방법의 핵심은 특정 가중치가 미세하게 변화하면 오차 함수가 어떻게 변화하는지를 알아내어, 그것에 따라 가중치를 적절하게 변화시키는 것이다. 그렇게 하려면 우선 오차를 가중치로 미분해야 한다. 다층 신경망의 경우 오차가 활성함수의 합성함수이기 때문에 미분을 할 때, 연쇄법칙(chain rule)에 따라 활성함수의 미분치들을 곱해야 한다. 문제는 시그모이드를 활성함수로 사용하면 미분치의 최대값이 1/4이어서, 여러 층을 거쳐서 출력이 나오는 경우에는 그 가중치의 변화량이 매우 작아진다는 것이다. 이에 따라 입력 쪽으로 갈수록 가중치 변화가 급격히 줄어드는, 즉 학습이 잘 되지 않는 상황이 발생한다. 이러한 상황이 그림 5에 가중치를 나타내는 ΔW의 크기(면적)로 표시되어 있다. 이 그림에서 은닉층 하나를 거쳐 좌측 방향으로 옮겨 갈 때마다 ΔW의 크기가 1/4 이하로 줄어들어서, 여러 층을 거친 후에는 고배율의 돋보기로 확대해야 겨우 볼 수 있는 크기가 되어버리는 것이다. 이러한 문제로 인해 심층신경망은 사실상 학습이 불가능한 것으로 간주하게 되었고, 1990년대 중반 이후 상당한 기간 동안 인공신경망 제2의 암흑기가 찾아왔다. 인공신경망 역사에 암흑기를 초래할 정도로 가공할 파괴력을 지녔던 오차 역전파 기법상의 문제는, 2010년 퍼셉트론의 활성함수로 정류선형유닛(rectified linear unit, ReLU)이 도입되면서 간단히 해결되었다.4) 문제는 오차 역전파 기법 자체에 있었던 것이 아니라, 잘못된 활성함수 선택에 있었던 것이다. 그 후 정류선형유닛은 컨볼루션 신경망을 비롯한 모든 신경망에서 빠르고 정확한 학습을 가능하게 하는 활성함수라는 사실이 입증되었고, 현재 가장 인기 있는 활성함수로 자리 잡고 있다.
지금까지 논의된 인공신경망의 특징은 생물학적 신경망과는 달리 시간 개념이 존재하지 않는다는 것이다. 생물학적인 신경망에서는 뉴런의 입력과 출력이 모두 시간 축 상의 스파이크로 나타나는데(그림 1(b)), 퍼셉트론에서는 단위시간당 스파이크의 수, 즉 스파이크 발생률(spike rate)을 입력과 출력으로 사용하면서 시간 개념을 제외시켜 버린 것이다. 따라서 인공신경망에서 동영상과 같이 시간에 따라 변화하는 입력 신호를 다루려면 시간을 일정 단위로 나누고 각 시점에서 정지상(still image)을 처리해야만 한다. 이 때 발생하는 문제는, 정지상 하나하나를 처리하는데 상당한 시간이 걸릴 뿐 아니라, 각각이 완전히 분리되어 있어서 정지상 간의 상호 연관성(correlation)을 파악할 수 없다는데 있다. 이를 극복하기 위하여 장단기 기억(long short term memory)을 잦는 재귀신경망(recurrent neural network, RNN)이 도입되어 시계열 데이터(time series data) 등의 처리에서 성공을 거두고 있기는 하지만, 아직 생물학적인 신경망이 사용하는 비동기적(asyncronous)이고 사건 구동적(event-driven)인 처리 방식의 높은 에너지 효율에 도달하기에는 역부족인 상태이다. 이러한 맥락에서 3세대 인공신경망으로 불리는 스파이크 신경망(spiking neural network, SNN)이 최근 각광을 받고 있다.
그림 7은 스파이크 신경망의 빌딩블록인 스파이크 퍼셉트론의 동작 원리를 보여주고 있다. 스파이크 퍼셉트론은 생물학적인 신경망과 마찬가지로 시간 축 상의 스파이크를 입력 및 출력으로 사용하기 때문에 처음부터 시간 개념이 포함되어 있다. 스파이크 퍼셉트론은 가중된 입력신호를 공간 적분함과 동시에 시간 적분하여 막전위(membrane potential) V(t)가 문턱값(θ)에 도달하면 스파이크를 발생시킨다. 실제 뉴런과 시냅스의 동작을 거의 그대로 모사하는 방법이어서 생물학적 신경망의 비동기적이고 사건 구동적인 처리 방식에서 비롯되는 높은 에너지 효율을 그대로 지닌다는 장점이 있을 뿐 아니라, 시간에 따라 변동하는 데이터를 자연스러운 방식으로 처리할 수 있는 가능성을 지니고 있어 많은 기대를 받고 있다.
위 그림의 스파이크 퍼셉트론들을 적절히 연결하면 다양한 구조의 신경망을 구성할 수 있는데, 한동안 해결하지 못했던 문제는 이렇게 구성된 스파이크 신경망을 어떻게 학습시킬 것인가 하는 것이었다. 생물학적인 신경망에서 사용하는 학습 방법이 STDP라는 사실은 잘 알려져 있지만, STDP는 근본적으로 비지도 학습 방법이어서 패턴 인식, 음성 인식 등의 응용에 바로 사용하기 어렵다. 따라서 지도 학습을 실시하기 위하여, 원하는 형태의 신경망을 구성해 놓고 출력층에만 지도 신호(training signal)를 인가하여 출력층을 제외한 모든 층에서는 STDP에 의한 비지도 학습이 이루어지고, 출력층에서는 지도 신호에 의한 학습이 되도록 하는 방식을 시도해 왔지만 인식률이 기존의 발생률 기반(rate-based) 신경망에 훨씬 못 미치는 것으로 나타났다.
이러한 어려움은 최근에 정류선형유닛을 활성함수로 사용하는 퍼셉트론과 스파이크 퍼셉트론 사이의 등가성(等價性, equivalence)이 밝혀지면서 해결의 실마리를 찾았다.
언뜻 보기에 매우 다르게 동작하는 것처럼 보이는 두 퍼셉트론이 동일한 시냅스 가중치들을 가지면 같은 연산을 수행한다는 것이다. 아래 그림을 보면 두 퍼셉트론의 등가성을 쉽게 알 수 있다. 이를 한 문장으로 표현하면 “이 그림의 (b)는 (a)의 신호(signal)인 값(value)들을 기본 단위로 나누어 시간 축에 배열하고 동일한 가중치를 곱한 후 시간 적분을 통해서 다시 합치는 연산이기 때문에 두 연산이 동일하다”는 것이다. 물론 여기에는 시간 축에 배열하는 방법, 문턱값을 결정하는 방법 등에 대한 제한 조건이 붙게 되지만, 근본적인 등가성을 훼손시키지는 않는다.
이러한 등가성을 바탕으로 스파이크 신경망의 지도학습 방법을 구현하는 것은 어렵지 않다. 먼저 정류선형유닛을 활성함수로 하는 소프트웨어 기반 신경망에서 오차 역전파 기법을 사용하여 최적의 시냅스 가중치들을 구한 다음, 이를 스파이크 기반 신경망으로 가져오면 된다. 가중치를 가져오는데 사용하는 방법은 여러 가지가 있을 수 있는데, 그 중 한 가지는 생물학적인 신경망의 학습 방법으로 알려진 STDP를 이용하는 것이다.
다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.
http://amenews.kr/news/view.php?idx=40192