기사 메일전송
  • 기사등록 2024-10-08 16:51:15
기사수정

▲ NICKEL & DiME 방법의 오버뷰(출처: UNIST)


국내 연구진이 AI 경량화, 저자원·고품질 영상 구현, 디자인 자동화 등 AI기술들의 혁신을 선보여 다양한 산업과 기기에서의 활용이 가능할 전망이다.


UNIST(총장 박종래) 인공지능대학원 유재준 교수팀은 4일 개최된 세계적인 컴퓨터 비전 학회 ‘ECCV(European Conference on Computer Vision) 2024’에서 3편의 논문을 발표하고, AI 성능 극대화, 경량화, 그리고 멀티모달 AI를 활용한 디자인 자동화에서 혁신적인 성과를 거뒀다고 밝혔다.


먼저 유재준 교수팀은 이미지 생성 AI인 GAN(Generative Adversarial Networks)을 323배까지 압축하면서도 성능 저하 없이 경량화에 성공했다. 지식 증류(knowledge distillation) 기법을 활용해 고성능 컴퓨터가 없는 엣지 디바이스나 저전력 컴퓨터에서도 AI를 효율적으로 사용할 수 있는 가능성을 제시했다.


연구팀은 DiME와 NICKEL 기법을 도입해 이미지 하나하나 비교하지 않고 분포를 비교하는 방식을 사용해 안정성을 높였다. NICKEL 기법은 생성기와 분류기 간의 상호작용을 최적화해, 경량화된 모델에서도 높은 성능을 유지하게 돕는다. 두 기법을 결합한 결과, 323배 압축된 GAN 모델도 기존과 동일한 수준의 고품질 이미지를 생성할 수 있었다.


유 교수는 “엣지 컴퓨팅이나 저전력 디바이스에서도 고성능 AI를 사용할 수 있는 길을 열었다”고 말했다. 제1저자 여상엽 연구원은 “제한된 자원에서도 고성능 AI 구현 가능성을 열어 AI 활용 범위를 크게 확장할 것”이라고 설명했다.


두 번째로 유 교수팀은 고성능 컴퓨팅 자원이 부족한 환경에서도 고해상도 영상을 효율적으로 생성할 수 있는 하이브리드 비디오 생성 모델(HVDM)을 개발했다. HVDM은 2D 트리플레인 표현과 3D 웨이블릿 변환을 결합해, 영상의 전역적 맥락과 세밀한 디테일을 동시에 처리할 수 있다.


기존 비디오 생성 모델들은 고성능 컴퓨팅 자원에 의존해 고해상도 영상을 생성했지만, HVDM은 제한된 자원으로도 자연스럽고 고품질의 영상을 구현하는 데 성공해 CNN 기반 오토인코더 방식이 가지는 한계를 극복했다.


연구팀은 UCF-101, SkyTimelapse, TaiChi 등의 비디오 벤치마크 데이터셋을 통해 HVDM의 우수성을 입증했다. HVDM은 기존 기술보다 더 높은 비디오 품질을 구현하며, 자연스러운 영상 흐름과 사실적인 디테일에서 뛰어난 성능을 보여줬다.


유 교수는 “HVDM은 고성능 컴퓨팅 자원이 부족한 상황에서도 고해상도 비디오를 효율적으로 생성할 수 있는 획기적인 모델”이라며 “비디오 제작 및 시뮬레이션 같은 산업 분야에서 널리 활용될 수 있을 것”이라고 전했다.


마지막으로 연구팀은 적은 데이터로도 광고 배너와 Web-UI 디자인을 자동 생성할 수 있는 멀티모달 레이아웃 생성 모델을 개발했다. 이 모델은 이미지와 텍스트를 동시에 처리해 사용자 입력만으로 적절한 레이아웃을 자동 생성할 수 있다.


기존 모델들은 데이터 부족으로 텍스트와 이미지 정보를 충분히 처리하지 못했다. 새롭게 개발된 모델은 이 문제를 해결하며 광고 디자인과 웹 UI의 실용성을 크게 개선했다. 텍스트와 이미지 간 상호작용을 극대화해 시각적 요소와 텍스트를 동시에 반영한 최적화된 디자인을 자동으로 생성한다.


연구팀은 HTML 코드 형식으로 레이아웃 정보를 변환했다. 언어 모델의 사전 학습 데이터를 최대한 활용해 적은 데이터로도 뛰어난 성능을 발휘할 수 있는 자동 생성 파이프라인을 구축했다. 벤치마크 테스트 결과, 최대 2,800%의 성능 향상을 기록했다.


사전 학습 과정에서 이미지 캡션 데이터셋을 활용하고, Depth-Map과 ControlNet 기법을 결합해 데이터 증강을 통해 성능을 극대화했다. 레이아웃 생성의 품질이 대폭 개선됐으며, 데이터 전처리 과정에서 발생할 수 있는 왜곡을 줄여 자연스러운 디자인을 만들었다.


유 교수는 “5,000장 정도의 적은 데이터로도 기존 6만 장 이상의 데이터를 필요로 했던 모델보다 더 나은 성능을 발휘했다”며 “전문가뿐만 아니라 일반 사용자도 쉽게 사용할 수 있어 광고 배너와 웹 UI 디자인 자동화에 큰 혁신을 가져올 것”이라고 강조했다.

0
기사수정

다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

http://amenews.kr/news/view.php?idx=59116
기자프로필
프로필이미지
나도 한마디
※ 로그인 후 의견을 등록하시면, 자신의 의견을 관리하실 수 있습니다. 0/1000
마크포지드
eos
프로토텍 11
로타렉스 260 한글
이엠엘 260
3D컨트롤즈 260
엔플러스솔루션스 2023
엠쓰리파트너스 23
하나에이엠티 직사
린데PLC
스트라타시스 2022 280
23 경진대회 사각
모바일 버전 바로가기