기사 메일전송
신소재경제신문·재료연구소 공동기획 소재기술백서 2017(25)-제4장 빅데이터 이용 소재 개발-빅데이터와 소재연구(3)-집필 이광렬, Hiroshi Mizuseki, 김동훈(KIST) - 빅데이터 구축, 제조·인프라 관점 노력 必
  • 기사등록 2020-02-13 09:41:42
기사수정
재료연구소가 발행한 ‘소재기술백서’는 해당분야 전문가가 참여해 소재 정보를 체계적으로 정리한 국내 유일의 소재기술백서다. 지난 2009년부터 시작해 총 9번째 발간된 이번 백서의 주제는 ‘4차 산업혁명 대응소재’다. 센서, 3D프린팅, AI용 반도체, 빅데이터 이용 소재 개발 등으로 나눠 각 분야별로 가치 있고 다양한 정보를 담았다. 이에 본지는 재료연구소와 공동기획으로 ‘소재기술백서 2017’을 연재한다.

빅데이터 구축, 제조·인프라 관점 노력 必


■ 국내 연구개발 현황


국내에서 소재 빅데이터와 데이터 기반의 소재개발은 2013년 창의소재 디스커버리사업의 기획단계에서 새로운 연구방법론의 하나로서 국가연구개발사업의 기획에 적극적으로 반영되기 시작했다.


그러나 소재개발에 활용될 수 있는 데이터가 부족하여 본격적인 소재정보학으로의 발전된 모습은 아직 보이지 못하고 있는 실정이다. 현재 국내에 공개되어 있는 소재 데이터는 소재종합솔루션센터에서 구축한 소재정보 데이터베이스가 있는데, <표 3-4-1-4>에서와 같이 분야별 소재정보은행에서 특화된 소재물성 데이터를 제공하고 있다. 소재정보은행에서 구축한 소재 물성 DB는 논문, 특허, 기업 상품설명서 등에서 수집 가공되거나, 측정에 의해 자체 생성한 물성 정보로서 각 분야의 일부 소재 및 응용분야에 집중되어 있다. 따라서 이들 DB는 한정된 범위에서 물성 검색 정도로 활용되고 있을 뿐 이를 이용하여 소재를 설계하는 수준에는 미치지 못하고 있다.


한편, 국가참조표준센터에서는 신뢰성 있는 물성데이터를 수집 생산하고 있으며, 현재 금속, 물리화학, 재료 등 8개 과학기술 분야, 76개 DB, 2만 7천여 데이터를 제공하고 있다.


또한 산업통상자원부의 산업핵심기술개발사업을 통해 계산과 정보학의 융합플랫폼인 iBAT이 개발 공개된 바 있다.


최근 국내 대기업인 LG 화학, 삼성 SDI, 삼성종기원 등 산업체에서는 리튬 이차전지 전극 소재 및 전해질 첨가제 등에 소규모의 ‘Computational Materials Screening’ 방법으로 자체 데이터베이스를 만들어 활용하고 있는 것으로 파악된다. 한편, 국내 중소기업에서 소재개발에 소재 빅데이터를 활용하는 것은 거의 전무하다고 할 수 있다.


소재 데이터의 중요성에 대한 인식 부족과 취약한 인프라를 극복하기 위해 2016년 미래창조과학부에서는 미래소재산업의 준비를 위한 경쟁력 확보전략으로서 소재 빅데이터 플랫폼 사업을 제안하였다.


이에 따라 2017년 2, 3차 나노·소재기술개발 사업(연구재단)을 통해 빅데이터 플랫폼 연구가 본격적으로 추진되기 시작했다.


이 사업은 실험 데이터와 계산 물성 데이터의 체계적인 수집·가공·분류에 의해 소재 빅데이터를 구축하고, 소재개발의 효율을 높이기 위한 빅데이터 분석 기술을 개발·활용하는 것으로 목표로 하고 있다. 또한, 축적된 빅데이터와 데이터 기반 소재설계기술을 널리 활용하기 위해 기술적, 산업적 수요에 따라 선정된 전략 소재 별로 테마형 빅데이터 플랫폼을 구축하여 공개한다. <표 3-4-1-5>는 2016년 미래소재산업 준비계획 수립을 위한 기획연구보고서 미래소재산업 준비계획 수립을 위한 기획연구 보고서에서 제시한 테마형 빅데이터 플랫폼 사업의 추진안이다.


소재 빅데이터의 구축과 활용을 위해서는 많은 도전과제들이 존재한다. 첫째로는 각 연구실과 실험실에 활용될 수 없는 형태로 산재되어 있는 다양한 형태의 데이터를 어떻게 수집 활용할 것인가 하는 점이다. 기존의 데이터는 수집을 포기한다고 하더라도, 향후 각 연구진이 생성하는 데이터를 축적 관리할 수 있는 국가적 (혹은 기관별) 인프라의 구축은 소재기술의 미래 경쟁력 관점에서 매우 중요한 이슈이다. 또한, 이미 출판된 논문과 특허 및 기술 자료에 포함된 데이터들을 활용할 수 있는 체계 구축도 필요하다. 이들 데이터의 가공과 분석만으로도 다양한 지식의 창출이 가능하기 때문이다.


소재정보를 빅데이터화하기 위해서는 이러한 정보의 수집과 가공이 자동으로 일어날 수 있는 플랫폼과 거대규모 데이터의 관리 및 운용 기술 개발이 필수적이다.


둘째로는 빅데이터 기반의 소재설계 기술이 개발되어야 한다. 데이터의 상관관계를 분석하여 소재개발 전략의 수립을 지원하고, 머신러닝과 딥러닝을 통해 신소재의 물성과 구조를 최적화할 수 있는 기술의 개발은 데이터를 통한 소재개발 경쟁력의 핵심이다. 이를 위해서는 우선 소재 전문가와 데이터 전문가와의 협업을 통해 소재정보학의 핵심 역량이 확보되어야 할 것이다. 장기적으로는 소재연구자들이 데이터 과학의 기법들을 연구에 활용할 수 있도록 데이터과학 분야의 교육과 관련 기법의 개발이 필요하다. 또한, 데이터를 활용한 소재개발의 학습효과를 위해 시범적 성공 사례의 도출 또한 소재정보학의 성공을 위해 필요하다고 할 것이다.


세 번째로는 데이터의 공유를 유도하기 위해 데이터 소유자의 권리를 보장하고 데이터 공유에 따르는 혜택부여 등 소재연구진이 동의할 수 있는 제도적 정비가 필요하다. 과학기술 분야에서는 데이터의 생성자체가 연구개발 행위의 목적이다. 이러한 점에서 일상생활로부터 산출되는 사회현상 데이터나 경제활동으로부터 산출되는 경제현상 데이터와는 성격을 달리한다. 따라서, 연구개발 데이터의 공유에 관한 과학기술계 내의 합의가 반드시 필요하다. 이를 위해서는 정부가 합리적인 제도의 개발에 주도적 역할을 해야 할 것이다.


1) 과학기술정보통신부 현황


2017년 8월부터 과학기술정보통신부에서는 연구개발 과정에서 발생하는 데이터를 국가적 자산으로 관리 활용할 수 있는 기반과 정책 수립을 위한 TFT를 가동하고 있다. 연구데이터 공유·활용 체계 구축 로드맵에서는 데이터 수집 및 관리 제도, 연구데이터 수집 및 관리 지원을 위한 인프라, 공유 활용 플랫폼과 생태계 구축이 모두 고려된 전략수립을 추진하고 있다. 성공적인 생태계 구축을 위해 1) 연구커뮤니티 수요를 기반으로 추진하며, 2) 우선순위에 따라 점진적으로 확장하고 3) 연구데이터 플랫폼을 구축 공개한다는 접근 전략의 정책을 수립하고 있다. 연구 분야 별 특성을 고려하여 공유 활용 방안을 마련할 계획이며, 2021년까지 3개 시범분야로서 소재, 바이오·의약, 그리고 대형 연구시설의 데이터 축적과 활용이 고려되고 있다.


아래 그림은 계층 (Tier) 구조 방식으로 국가 데이터 공유·활용 생태계를 구축하는 연구데이터 공유·활용 체계의 개념도이다. Tier-1, Tier-2 센터는 데이터 관리에 대한 권리·책임을 보유하는 연구 커뮤니티가 담당하며, 수집된 데이터를 관리·검증 및 공유하기 위한 큐레이팅, 데이터 활용 연구와 1차 아카이빙(Archiving)을 수행한다. Tier-0은 국가 연구데이터 플랫폼으로서 데이터의 공유·활용을 위한 하드웨어, DB, 컴퓨팅, 네트워크 및 엑세스 환경과 함께 데이터 관리 및 분석 SW를 제공하는 역할을 수행한다. 따라서, Tier-1과 Tier-2 센터는 하드웨어가 없어도 Tier-0에서 제공하는 하드웨어를 통해 데이터 플랫폼 구축이 가능한 국가적 인프라를 제공하게 된다. Tier-1은 여러 Tier-2를 연계하여 소재, 바이오 등 대분류에서 1~2개씩 선정한다. Tier-1은 Tier-2 보유기관 중 한 곳이 담당하며 Tier-2의 조성계획, 운영, 데이터의 관리를 책임진다.


또한, 데이터 기반 연구 커뮤니티 형성을 촉진하기 위해 데이터 기반의 시뮬레이션 및 머신러닝을 통한 난제해결을 목표로 하는 집단연구 지원 프로그램 신설과 데이터 뱅크를 통한 정보제공 플랫폼 구축 그리고 연구커뮤니티 육성 활동을 지원하는 예산 배정을 골자로 한 기반구축 안이 수립되고 있다. 제도적인 면에서는 연구데이터 공유·활용의 법적 근거 마련, 연구데이터 소유권 명시안, 그리고 연구데이터의 관리 및 공유·활용 기본 원칙 수립을 위해 다양한 의견을 수렴하고 있다. 이 과정을 통해 성과 평가법 개정, 연구개발 사업 공동 관리 규정 개정, 연구 분야별 데이터 관리 원칙 및 계획안 등이 마련될 것으로 기대된다.


데이터 공유 재료과학 연구자들 인식 변화

글로벌 스케일 공유, 소재정보학 역량 강화


2) 한국과학기술연구원 (KIST) 현황


2017년부터 KIST에서는 데이터 기반의 연구개발 환경을 제공하기 위해 R&D 빅데이터 및 정보학 기술을 이용할 수 있는 연구개발 인프라 구축 사업을 진행하고 있다<그림 3-4-1-15 참조>. 본 사업은 2016년부터 시작된 KIST 빅데이터 포럼을 통한 의견수렴을 바탕으로 기획되었으며 KIST 내 모든 연구 분야에 적용될 수 있는 범용의 인프라 구축을 목표로 하되, 인프라의 실효성 입증을 위한 시범 적용 분야로서 나노 촉매 분야를 선정하여 2018년 12월까지 구축 완료하는 것을 목표로 하고 있다.


이 사업의 목표는 다음 세 영역의 인프라를 구축하여 공개 활용토록 하는 것이다.


1. 특성분석센터 및 나노입자 설계 플랫폼을 중심으로 한 R&D Platform “KiRI Note v1.0” 구축


● 연구자 개인의 통상적 연구 활동이 데이터화 될 수 있는 플랫폼으로서 KiRI Note를 구축하여 제공

- 실험연구의 경우 실험 과정을 기록하고 생성된 시료의 분석/특성평가를 통해 data 생성

- 특성분석센터의 장비를 통한 분석은 특성분석센터 통합관리시스템과의 연계를 통해 진행하며 data 생성

- 계산연구의 경우 기능성 나노입자 소재설계 플랫폼과 연동

● 모든 생성된 data는 meta data와 함께 KIST Data Bank에 비공개 조건으로 축적되며, 시스템은 이 데이터에 기초하여 work 별로 연구노트를 자동 생성한 후 연구노트 인증시스템으로 이관

● KIST 내부 데이터뿐만 아니라 대량의 외부 글로벌 과학기술 데이터 접근을 통한 AI 기반 연구활동 지원 서비스 체계 마련


2. “KiRI Note”의 data와 외부 비정형 데이터를 수집 축적하고 활용하는 국제표준에 부합되는 KIST Data Bank 구축 및 서비스


● KIST Data Bank 구축을 위한 국제 표준과 연계된 핵심 인프라 구축

- 국제사실표준(DCAT) 기반 과학기술 카탈로그 확장 개발 및 상호연동

● 글로벌 과학기술 데이터 플랫폼 기술 주도를 위한 자체 기술력 및 데이터 네트워크 인프라 확보

● KIST 내외부 정형·비정형 데이터의 통합, 저장, 관리 및 활용

● 대량의 외부 글로벌 과학기술 데이터 접근을 통한 실시간 연구활동 지원 서비스 기술의 개발


3. 나노촉매의 물성예측을 위한 머신러닝 알고리즘 개발 및 KIST R&D 인포메틱스 플랫폼 “KiRI v1.0”구축


● KIST 내/외부의 데이터, 글로벌 스케일의 데이터를 손쉽게 통합 검색 및 활용할 수 있는 데이터 기반 R&D 서비스 포털

● 연구원별 개인화 페이지, 연구원 개인 데이터 업로드, 글로벌 과학기술 데이터와의 조인, 과학기술 데이터 인지적/시각적 분석, 다양한 퍼블리싱 및 공유 기능 제공

● 촉매 소재의 여러 특성들 사이의 상관관계를 비교 분석할 수 있는 사용자 환경 구축

● 수리과학 기반 데이터 모델링과 빅데이터 분석 및 물성 예측모델 개발

- 촉매 소재 설계 모델 구축 및 공개


데이터 기반 R&D 인프라의 구축은 기관의 미래연구 경쟁력을 크게 증가시킬 수 있을 것으로 기대하고 있다. KIST 생산 데이터의 체계적 관리를 통해 데이터를 자산화 하며, 연구노트를 통한 지적재산 보호 기능 강화, 데이터 기반 연구 활동 지원, 연구동향/연관기술 등 분석을 통한 연구정책 수립 기능 강화, 머신러닝 기반 촉매 물성 예측 알고리즘/모델 개발 등 다양한 관점에서 KIST의 주요 R&D 기반으로 위치하게 될 것이다.


3) 한국화학연구원 (KRICT) 현황


2017년부터 KRICT에서는 화학인프라본부의 화학시뮬레이션센터에서 KRICT에서 생산되는 연구 데이터를 수집하고 데이터베이스를 구축하여 연구데이터를 활용하기 위한 기반을 만드는 “화학데이터 플랫폼 구축”사업을 시작하였다. 이 사업을 통하여 기존에 연구노트 및 아날로그 연구 데이터를 전산화하며 연구 데이터를 수집하고 수집된 연구 데이터를 기반으로 차후 활용 가능한 데이터베이스를 구축하고 있다. 그리고 연구 데이터 자동 수집을 위한 기반 구축을 추진하며 수집한 데이터를 바탕으로 새로운 연구 주제 창출을 위한 데이터 분석을 지원하고 데이터마이닝, 머신러닝 등에 적용하기 위한 기반을 마련하는 것을 목적으로 하고 있다. 첫 번째 사업 년도인 2017년에는 KRICT에서 수행하고 있는 유기태양전지 연구 관련 데이터를 대상으로 하여 데이터 수집 및 정리를 하여 데이터베이스를 구축하고 있다.


본 사업을 통하여 수집된 연구데이터는 정규화 과정을 거쳐 관리되고 메타데이터를 추출하며 데이터마이닝을 거쳐 머신러닝 등 소재정보학 플랫폼에서 활용할 수 있도록 가공하며, 향후 KRICT 전체 연구데이터의 수집·활용과 함께 “화학 관련 연구데이터의 리포지토리”를 구축할 계획을 가지고 있다.


연구원 내의 소재 연구데이터 수집 및 활용을 위한 플랫폼 구축과 더불어 화학시뮬레이션센터에서는 소재 빅데이터에 다양한 머신러닝을 적용하는 소재정보학 연구를 수행하고 있다. 현재 소재정보학 연구는 기존의 공개된 소재 빅데이터 및 KRICT의 계산 물성 데이터베이스를 활용하여 다양한 머신러닝 알고리즘 적용을 통해 소재 물성 예측에 대한 연구를 진행하고 있다. 이러한 소재정보학 연구는 향후 연구원 내에서 구축된 데이터베이스를 활용하는 연구로의 확대를 계획하고 있다. KRICT의 화학데이터 플랫폼 구축, 소재정보학 응용 연구는 기존의 화학소재정보은행과 연계하여 “소재정보학 기반 소재 개발 플랫폼”으로 구축하고 이를 다양한 소재 개발 연구에 적용할 계획이다.


■ 빅데이터 기반 소재연구 활성화를 위한 제언


머신러닝을 통해 신뢰할 만한 정보를 추출하여 이를 바탕으로 성공적인 소재의 개발을 달성하기 위해서는, 소재 빅데이터의 구축이 무엇보다도 시급하고 중요하다. 머신러닝과 최적 제어 이론을 결합하여 특정한 문제의 해답을 찾아가는 인공지능에게 빅데이터는 판단의 논리를 제공하는 모수이기 때문이다. 따라서, 데이터는 인공지능을 이용한 데이터 기반의 연구에서 가장 필요한 핵심 자원이며, 이를 체계적으로 수집하고 저장 관리하는 인프라는 미래 R&D 경쟁력의 핵심이라고 할 수 있다.


빅데이터의 구축에는 무엇보다도 제도 및 인프라 관점의 노력이 필요하다. 특히 빅데이터라 함은 기존 물성정보 DB의 규모를 훨씬 뛰어 넘기 때문에 데이터의 수집과정이 자동화 되어야 한다. 특히, 데이터의 수집을 위해 연구자에게 추가의 부담이 가해지면 빅데이터 구축은 실패할 가능성이 높다. 빅데이터 구축을 가장 효과적으로 달성할 수 있는 방법은 플랫폼화된 연구개발 환경을 구축하는 것이다. 실험의 과정을 관리하는 플랫폼, 분석 플랫폼, 계산재료과학 플랫폼 등이 제공되어 플랫폼 상에서 연구를 수행하게 되면, 그 결과들인 데이터가 메타 데이터와 함께 자동으로 축적될 수 있을 것이다. 연구개발 플랫폼의 활성화를 위해서는 플랫폼 상에서 연구개발과정을 편리하게 해주는 다양한 서비스를 개발하여 제공하여야 한다.


두 번째는 데이터의 공유에 관한 재료과학 연구자들의 인식변화가 있어야 한다. 연구자들은 데이터를 생성할 때 과제의 수행이나 논문의 작성 등 특정한 목적으로 가지고 데이터를 생성하고 관리한다. 그러나, 그 목적이 달성되고 난 뒤에는 데이터 관리에 크게 신경쓰지 않는 것이 일반적이다. 빅데이터를 통한 소재개발은 원래의 목적이 달성된 데이터들을 공유하여 빅데이터화 함으로써, 데이터 생성의 고유 목적과는 다른 관점의 가치를 창출하는 것이다. 따라서, 일정기간의 엠바고 기간을 거쳐 데이터를 공유하는 문화가 연구자들 사이에 만들어 져야 한다. 또한, 데이터의 공유를 촉진하기 위해서는 데이터를 통한 연구가 어떤 가치를 창출하는가에 대해 연구자들의 구체적 학습 경험과 이를 통한 인식 제고도 필요하다.


세 번째로는 글로벌 스케일의 데이터 공유 체계를 갖추어야 한다. 소재 정보학은 데이터의 규모가 매우 중요한 분야이다. 작은 규모의 데이터로는 충분히 신뢰할 만한 정보를 추출하지 못할 가능성이 높기 때문이다. 따라서, 어느 한 연구진이나 한 국가가 보유한 데이터만으로는 충분히 효과적인 소재정보학 연구가 진행되지 못한다. 따라서, 세계적인 소재 데이터 구축 노력에 적극 동참하여 데이터 공유를 위한 표준화, 공유를 위한 인터페이스 구축 등 글로벌 스케일의 데이터 공유를 염두에 둔 빅데이터 구축 노력이 진행되어야 한다.


빅데이터의 축적과 함께 소재정보학 분야의 연구개발 역량 강화에도 많은 노력이 필요하다. 거대규모의 데이터가 공유되는 시점에서 이를 최대한 활용할 수 있는 역량을 갖추고 있어야 실질적인 가치를 창출할 수 있기 때문이다. 소재 정보학 분야는 소재 분야의 전문가와 데이터 분석/처리에 익숙한 전산전공자 혹은 데이터 사이언티스트들이 협력하는 융합연구를 통해 직관적이고 사용이 편리한 SW 및 알고리즘 개발이 이루어질 수 있다. 따라서, 정부에서는 적극적으로 데이터 기반의 소재개발 융합연구를 지원하여야 한다. 또한, 정보과학과의 융합 역량 강화를 위해 재료과학 연구자들에 대한 교육이 필요하기 때문에 융합과제를 수행하는 연구진들이 소재정보학의 파급을 위한 교육프로그램을 개발하도록 유도하여야 한다.

▲ <표 3-4-1-4>국내 소재 데이터베이스 구축 현황


▲ <표 3-4-1-5>테마형 소재 빅데이터 플랫폼 사업의 추진 예시


▲ <그림 3-4-1-14>연구데이터 공유·활용 체계 개념도


▲ <그림 3-4-1-15>KIST 데이터기반 R&D 플랫폼의 구성도


▲ <그림 3-4-1-16>데이터 플랫폼을 활용한 데이터 수집 및 활용


▲ <그림 3-4-1-17>연구사업 지원을 위한 연구데이터의 확보 및 활용


0
기사수정

다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

http://amenews.kr/news/view.php?idx=41442
기자프로필
프로필이미지
나도 한마디
※ 로그인 후 의견을 등록하시면, 자신의 의견을 관리하실 수 있습니다. 0/1000
프로토텍 11
서울항공화물 260
이엠엘 260
린데PLC
im3d
엔플러스 솔루션즈
모바일 버전 바로가기