기사 메일전송
신소재경제신문·재료연구소 공동기획 소재기술백서 2017(24)-제4장 빅데이터 이용 소재 개발-빅데이터와 소재연구(2)-집필 이광렬, Hiroshi Mizuseki, 김동훈(KIST) - 빅데이터 인프라 구축 선행 必
  • 기사등록 2020-02-13 09:33:19
기사수정
재료연구소가 발행한 ‘소재기술백서’는 해당분야 전문가가 참여해 소재 정보를 체계적으로 정리한 국내 유일의 소재기술백서다. 지난 2009년부터 시작해 총 9번째 발간된 이번 백서의 주제는 ‘4차 산업혁명 대응소재’다. 센서, 3D프린팅, AI용 반도체, 빅데이터 이용 소재 개발 등으로 나눠 각 분야별로 가치 있고 다양한 정보를 담았다. 이에 본지는 재료연구소와 공동기획으로 ‘소재기술백서 2017’을 연재한다.

빅데이터 인프라 구축 선행 必


■ 유럽 연구개발 동향


소재정보학 연구에서 가장 우선적으로 구축되어야 하는 데이터베이스는 존재 가능한 모든 소재들의 구조정보이다. 이는 실험적으로 이미 찾아지거나 사용되고 있는 소재들은 물론이고, 가상으로 만들어질 수 있는 소재들을 모두 포함한다. 전 세계적으로 가장 큰 “소재 구조정보”데이터베이스가 대부분 유럽기관들의 주도 하에 구축되었다. 아래에서 세 가지 사례 (ICSD, CSD, Chem Spider)를 중점적으로 소개하고, 추가 사례들 중 일부는 <표 3-4-1-2>에 따로 정리하여 나타내었다.


FIZ Karlsruhe 기관의 주도 하에 수집된 세계 최대의 무기재료 결정구조 데이터베이스이다. 단원소 물질, 광물, 금속, 금속간 화합물 등 존재가능한 모든 무기재료를 정의하고, 구조 정보 (좌표, 스페이스 그룹, Pearson 기호, Wyckoff 순서)들을 축적한다. 현재 188,000 개의 소재가 등록되어 있으며, 해마다 평균 4,000개 이상의 새로운 소재들과 관련 정보들이 추가되고 있다.


영국 Cambridge Crystallography Data Centre의 주도 하에 수집된 세계 최대의 유기물 구조 데이터베이스이다. 주로 작은 유기물 분자들이나 또는 금속-유기물 화합물에 대하여 구조 정보를 축적해 두고 있다. 현재 900,000개에 달하는 소재들이 등록되어 있으며, 해마다 출판 자료를 기반으로 평균 30,000개 이상의 새로운 소재들이 추가 등록되고 있다.


Royal Society of Chemistry (RSC)를 주도 하에, 화학 구조의 이용가능한 정보원과 이와 관련된 정보를 하나의 검색 저장소에 종합하고 색인을 할 목적으로 개발되었다. 총 480여개의 데이터원으로부터 60,000,000개의 독특한 화학 물질을 저장해두고 있다.


■ 미국 연구개발동향


ICSD, CSD, Chem Spider 등에서 구축된 소재 구조정보 DB를 기반으로 다양한 소재 물성정보 DB (예: 열역학 성질, 전기/자기/기계적 성질 등)가 구축되어 있다. 아래에 대표적인 네 가지 사례를 소개하고, 추가 사례들은 표 3 에 요약/정리하여 나타내었다.


미국 노스웨스턴 대학 (Chris Wolverton 교수팀)의 주도 하에, ICSD 내의 무기재료를 대상으로 DFT 총에너지 계산데이터 470,000여개를 확보해 두었다. 해당 플랫폼 환경에서는 계산된 총에너지를 기반으로 재료의 생성에너지, 상태도와 같은 핵심적인 열역학 성질을 제공한다. 본 데이터베이스는 합금 촉매, 리튬 이온 배터리, 고효율 나노구조 열전소자 등 분야에 사용되는 재료들을 스크리닝하는데 널리 활용되고 있다.


미국 로렌스 버클리 국립연구소 (Gerbrand Ceder, Kristin Persson 교수팀)의 주도 하에, ICSD 내의 무기재료 (70,000여개)를 대상으로 다양한 소재 기초물성을 확보해 두었다. 앞서 소개된 OQMD와 차별적인 부분은 저장하고 있는 소재물성이 더 다양하다. OQMD의 경우 열역학 성질 (예: 생성에너지)을 집중적으로 DB화 시켰지만, Materials Project는 열역학 성질은 물론이고 자기적 성질 (예: 자기 모멘트 크기), 전기적 성질 (예: 밴드 다이어그램, density of states (DOS)), 기계적 성질 (예: 체적 탄성율, 전단 탄성율) 까지 DB화하였다.


Citrine Informatics 회사에서 무료로 공개된 세계 최대의 재료 데이터 플랫폼이다. 앞서 소개된 OQMD, Materials Projects 그리고 AFLOWLIB과 같은 데이터베이스에는 ICSD에서 제공하는 구조정보를 기반으로 제일원리 계산값이 저장되어 있다. 반면, Citrination 플랫폼이 기존 DB들과 차별화되는 점은 크게 다음 두 가지이다. (1) 논문, 특허, 기존 DB 등의 많은 데이터 (정형, 비정형)을 망라하고, 계산데이터 뿐만 아니라 사용가능한 실험데이터까지 모두 포함시켰다. (2) 데이터 수집에 그치지 않고, 수집된 데이터를 이용해 기계학습을 수행하는 기능을 내장시킴으로써 DB 내에 존재하지 않는 물질에 대해서도 물성 예측이 가능하게 하는 기능을 제공하고 최종적으로는 연구자들이 원하는 물성을 가지는 적절한 소재를 찾아주는 “역방향 소재설계” 기능을 추가하고 있다.


미국 National Institute of Science and Technology (NIST)는 광범위한 재료 연구자 커뮤니티에서 데이터 공유 및 재사용을 촉진하기 위해 Materials Genome Initiative (MGI)와 협력하여 재료 과학 데이터 저장소 (Materials Data Repository)를 만들었다. 재료와 관련된 모든 데이터를 한 곳에 저장시켜두는 역할을 한다. 앞서 소개된 OQMD, Materials Project에서는 특정 재료 물성의 계산데이터 값을 저장하였다면, 본 데이터 저장소에는 실험/계산 구분 없이 모든 사용가능한 데이터 (주로 문헌자료 기반)를 축적하고 있다. 데이터 제공 기관, 재료/물성/합성 및 공정법 등의 종류별로 데이터 자원 검색이 가능하며, 대부분 공공 서비스로 제공하나 일부 접근이 제한된 데이터들도 존재한다. 또한 Materials Resource Registry에서는 사용자가 직접 데이터를 추가할 수 있게 하여 데이터를 지속적으로 수집하고 있다.


■ 일본 연구개발동향


일본 정부는 2016년 결의된 제5기 과학기술기본계획에서 슈퍼 스마트 사회 ‘Society 5.0’의 실현에 공헌하는 11개 시스템 중 하나로 소위 ‘통합형 재료 개발 시스템’을 선정하였다. 이 시스템은 계산과학과 데이터과학 기법을 통해 혁신적인 기능성 재료와 구조 재료 등 신소재를 개발하는 것으로서, 소재의 개발 기간을 대폭 단축할 수 있을 것으로 기대하고 있다. 미래에는 개발기간과 비용의 절감 뿐 아니라, 인공 지능을 통해 새로운 소재를 예측하고 합성 공정을 제시하며 새로운 물리법칙을 발견하는 것도 가능할 것으로 기대하고 있다.


개인 연구자나 소규모 연구그룹이 한시적인 프로젝트를 통해 대규모의 소재 데이터베이스를 구축하고 지속적인 운영과 정보제공을 담당하는 것은 대단히 어렵다. 따라서 소규모 연구를 지원하는 일본의 과학 연구비 조성 사업 (일명 과연비 사업) 에서는 2017년 9월부터 사용된 가장 최신의 지원기술 분류표에도 소재 데이터베이스 연구는 포함되어 있지 않다. 대신 소재 데이터베이스 구축을 위한 대형 국가 프로젝트로 예산이 책정되어 집행되고 있다. NIMS (National Institute for Materials Science, 일본 국립물질·재료 연구기구)는 과학기술 진흥기구 (JST) 사업인 ‘정보 통합 물질·재료 개발 이니셔티브 (MI2I : Materials research by Information Integration Initiative)’의 주관기관이다. 데이터기반 소재혁신의 거점 구축을 목표로 소재 데이터베이스를 개발·정비하고, 재료 과학부터 정보 과학, 수학 분야에 이르는 산학연 협동 체제를 통한 오픈 이노베이션을 지향하고 있다. 2015 년에 창설된 정보 통합 물질·재료 연구 센터 (Center for Materials research by Information Integration of NIMS (CMI2)) 는 배터리 재료, 자성 재료, 전열 제어 및 열전 재료는 구체적인 주제의 소재개발연구를 수행하면서 동시에 데이터 중심의 연구 방법론의 개발에도 힘쓰고 있다. 또한 산학연 연구자들이 연구개발의 현장에서 활용할 수 있는 정보통합형 물질탐색·재료개발 시스템을 구축하고 있다.


소재관련 데이터 수집, 미래 경쟁력 핵심

전세계 연구기관 결과 체계적 DB화 필요


NIMS는 2003년부터 일본 최대의 오픈 데이터베이스인 MatNavi를 제공하고 있다. 이것은 고분자, 무기 재료, 금속 재료, 초전도 재료 등 11 개 데이터베이스, 4 개의 응용 시스템, 6 종의 구조 재료 데이터 시트로 구성되어있다. 기 출판된 방대한 학술 자료에서 유용한 논문을 추출하여 수치 데이터를 수집, 데이터베이스화하고 있기 때문에 신뢰도가 높은 데이터베이스이다. 그러나 이 데이터베이스는 빅데이터 분석 즉 데이터 기반의 학습을 전제로 구축되어 있지는 않다. 따라서 소재정보학의 관점에서 사용이 용이한 데이터베이스 구축과 함께 텍스트 마이닝을 이용하여 논문의 정보를 자동으로 데이터베이스화하는 기술의 개발도 추진되고 있다. MatNavi는 사용자 등록만하면 무료로 이용할 수 있으며, 2017년 3월 현재 등록자 수는 12만명을 넘어섰고 그 중 28%는 해외 사용자이다. 2017 년부터 연구를 위한 기능을 담은 데이터베이스 유료 버전의 출시를 준비하고 있다.


또한 효율적 소재 데이터베이스를 구축하고 데이터베이스의 실제적인 이용을 촉진하기 위해 NIMS는 ICT 기술과 소재 기술을 융합하는 핵심 시스템인 ‘통합 재료개발 시스템’구축에 나섰다. 또한, 2017 년 4 월에 소재데이터 플랫폼의 연구개발을 위한 새로운 연구개발 부서로서 통합형재료개발·정보기반부문(Research and Services Division of Materials Data and Integrated System, MaDIS)을 발족시켰다.


이 부문의 하부 조직으로는 상기한 정보통합 물질·재료 연구센터와 2014 년도부터 추진하는 ‘혁신적 구조 재료’프로젝트를 수행하는 SIP-MI 연구소 (SIP-MI : Strategic Innovation Programs - Materials Integration) 가 있다.


또한 NIMS가 산업계와의 오픈 이노베이션을 지향하는 소재 오픈 플랫폼 (Materials Open Platform: MOP)에서 소재정보학을 연구하는 MOP-MI 연구소와 새로 설립된 소재 데이터 플랫폼 센터를 포괄하고 있다. 소재 데이터 플랫폼 센터 (Materials data platform center, DPFC)는 통합 재료 개발 시스템을 지원하는 핵심 활동으로 세계 최대 규모의 고기능 재료 데이터 플랫폼을 구축하고 있다.


■ 중국 연구개발동향


미국의 MGI가 발표되고 나서 중국에서도 중국판 MGI (Chinese Materials Genome Initiative)가 시작되었다. 2014년에 상하이 시와 상하이 대학이 공동으로 상하이 Materials Genome 연구소를 설립한 바 있고, 최근 데이터 과학을 활용한 소재 개발 연구를 활발히 진행하고 있다. 2015년 5월에는 베이징 과학기술 대학 내에 MGI 연구소가 신설되었다. 또한 2016년에는 상하이 교통 대학에서도 Materials Genome 융합연구센터를 설립하는 등 거국적으로 Materials Genome 연구에 힘을 쏟기 시작하고 선진 연구자와의 제휴를 강화하고 있다. 계산과학 및 기계학습, 그리고 데이터 저장 시스템을 구축하는 등 단기간에 눈부신 발전을 보이고 있다. 중앙 정부와 상하이 지방 정부로부터 총 1,000 억원 정도의 예산을 받아 미국에서 귀국한 중국인 연구자를 리더로 응용 연구를 가속화하고 있다. 2016년 3월에 발표된 과학 기술 혁신 제 13 차 5 개년 계획에서도 중국 산업의 국제 경쟁력 향상을 위한 중점 기술 중 하나인 ‘신소재 기술’분야 중에 새로운 재료의 개발 기간·비용을 1/2로 감소하기 위한 ‘Materials Genome 공학’을 선정하고 있다. 2016년 6월에는 중국 국가 중점 연구 프로젝트로 MGI 관련 14 과제를 채택했다.(연구비 총액: 3억 위안, 한화 약 480억 원)


2016년 1월 베이징 Materials Genome 공학 혁신 연맹이 구성되어 중국 과학원 물리 연구소에서 설립 기념식 및 제 1 회 전체 회원 대회가 개최되었다. 본 연맹은 중국 과학원 물리 연구소와 베이징 과학 기술 대학에 의해 공동 설립되었다. 설립 취지는 관련 분야에서 우위를 갖는 대학, 과학 연구원 (소) 및 기업 등 총 36 기관으로 구성되어있다. 주요 참가 기관은 중국 과학원 물리 연구소, 베이징 과학기술 대학, 베이징 신소재 개발센터, 닝더 시대 신에너지 과학기술 회사, 칭화 대학, 베이징 대학, 베이징 항공항천 대학, 중국 철강연구 과학기술 그룹 유한 공사, 중국 과학원 계산기 네트워크 정보센터, 베이징 공업 대학 등이다. Materials Genome에 관한 연구를 실시하는 것으로, 베이징 및 중국 전체의 신소재의 연구 개발 과정의 가속화, 개발주기 및 비용의 절반, 신소재 산업 체계의 구축·구비 제조업의 부흥, 혁신 주도 발전 전략의 수행을 지원하는 것을 목적으로 하고 있다. 이처럼 중국의 소재 빅데이터 연구활동의 특징은 국가 수준보다 상하이와 베이징 등 지방 정부 차원에서 프로젝트가 만들어 지고 있는 점이다. 민간 사례의 경우 2015년 9월에는 닝보에 국제 MGI 연구소도 설치된 바 있다.


■ 시사점


머신러닝과 최적 제어 이론을 결합하여, 특정한 문제의 해답을 찾아가는 인공지능에게 빅데이터는 판단의 논리를 제공하는 모수로 기능(a work of ‘calibration’)한다. 따라서 데이터 기반 소재연구에서 가장 선행되어야 할 부분은 빅데이터 인프라의 구축이며, 소재관련 데이터를 체계적으로 수집하고 저장, 관리하는 역량은 미래 소재 경쟁력의 핵심이라고 할 수 있다.


위에 소개된 바와 같이 전 세계적으로 여러 연구기관들이 빅데이터 기반 소재개발을 가속화시키기 위해서 빅데이터 인프라 구축을 위한 노력을 다양하게 진행하고 있다. 이처럼 많은 DB가 이미 존재하고 있지만, 현재 시점에서는 다음 몇 가지 한계점들을 인지하고 극복하려는 노력이 필요하다.


첫째, 현재 구축되어 있는 데이터베이스의 물성정보가 대부분 계산데이터이다. 데이터 산출방법 측면에서 분류해 보면, 실험데이터와 계산데이터로 양분이 가능하다. 계산데이터의 경우 (현재는 주로 제일원리 계산) 컴퓨터 자동화 생성이 가능하고 변수 조절이 용이하기 때문에 대량으로 축적하는 것이 가능하다. 때문에 대부분의 대규모 DB는 계산데이터에 기반을 두고 있다. 하지만 사용하는 계산방법론이 산출해주는 물성만을 확보할 수 있고, 일부 물성의 경우 실험값과 동떨어진 결과들을 축적할 때가 많아 데이터의 질 (quality)을 훼손시킬 수도 있다. 현재는 실험데이터 DB의 양이 상대적으로 매우 부족하다. 전 세계의 대규모 연구기관 (학교, 연구소, 가속기 등)들에서 재료들의 물성 분석 결과를 체계적으로 DB화하려는 노력이 꼭 필요한 시점이다.


두 번째는 데이터의 표준화 작업이 필요하다. 위에 나타나있듯이 이미 많은 DB가 존재하지만 DB마다 저장 체계가 모두 제각각이다. 예를 들면 OQMD와 Materials Project는 무기 재료의 열역학 성질들을 공통적으로 저장하고 있지만, 그 저장 방식이 서로 다르다. DB 관리 기관들에서도 데이터의 표준화 필요성을 인식하고 있지만, 당사자들 간의 이해관계 때문에 합의 도출이 어려운 상황이다. 재료정보학의 발전을 위해서는 단일통합 시스템을 만드는 노력이 꼭 필요하다. Citrine Informatics 회사는 소재 데이터 표준화 작업에 앞장서서, Materials Information File (MIF, Open JSON-based file format, created by Citrine Informatics) 등을 데이터 표준 포맷으로 공식화하기 위해 노력 중이다. 재료분야 단일통합 데이터 시스템이 구축된다면 향후 기계학습과 분석을 더욱 강력하게 하여 신소재 개발을 매우 빠르게 가속화시킬 것이다.



세 번째는 인포메틱스 플랫폼의 구축이 필요하다. 인포메틱스 플랫폼을 통한 데이터 기반의 지식 창출은 데이터의 잠재 가치로부터 실질 가치를 실현하는 의미를 지닌다. 따라서 인포메틱스 플랫폼은 방대한 데이터 정보로 부터 숨어있는 지식에 접근하고, 연구개발 과정에서 빅데이터를 활용할 수 있게 하는 연구 기반으로서 사용자 선호도를 반영하여 모델링, 계산, DB구축, 기계학습, 예측/설계 등의 기능이 구현되어야 한다. 또한, 통합형 플랫폼 설계를 위해 단일화된 프로그래밍 언어, 인터넷 연결 등의 요소도 고려되어야 할 것이다. 데이터와 알고리즘을 이용해서 과학적 지식을 창출하는 R&D 정보학은, 해당 분야 전문가와 정보처리 툴을 위한 프로그래밍과 데이터 분석/처리에 익숙한 전산전공자 또는 데이터 사이언티스트들이 협력하는 융합연구를 통해 직관적이고 사용이 편리한 SW 및 알고리즘 개발이 이루어질 수 있을 것이다.


▲ <그림 3-4-1-6>ICSD 공식 홈페이지


▲ <그림 3-4-1-7>CSD 공식 홈페이지


▲ <그림 3-4-1-8>Chem Spider 공식 홈페이지


▲ <표 3-4-1-2>유럽 기관들을 주축으로 구축된 DB의 일부


▲ <그림 3-4-1-9>OQMD 공식 홈페이지


▲ <그림 3-4-1-10>Materials Project 공식 홈페이지


▲ <그림 3-4-1-11>Citrination Platform 공식 홈페이지


▲ <그림 3-4-1-12>NIST Materials Resource Registry 공식 홈페이지


▲ <표 3-4-1-3>미국 기관들을 주축으로 구축된 DB의 일부


▲ <그림 3-4-1-13>NIMS MatNavi 데이터베이스 홈페이지


0
기사수정

다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

http://amenews.kr/news/view.php?idx=41440
기자프로필
프로필이미지
나도 한마디
※ 로그인 후 의견을 등록하시면, 자신의 의견을 관리하실 수 있습니다. 0/1000
프로토텍 11
서울항공화물 260
이엠엘 260
린데PLC
im3d
엔플러스 솔루션즈
모바일 버전 바로가기