소재 빅데이터, 국가적 정책 수립 必
■ 데이터 기반의 소재 연구
현대 초연결 사회를 실현한 ICT의 비약적 발전으로 인해 연구개발 데이터의 축적과 활용을 통한 연구개발이라는 새로운 장이 열리고 있다. 과학적 연구탐색의 패러다임이 실험 (experiment), 이론 (theory), 모사 (simulation)에서 데이터 기반 (data-intensive)의 연구로 전환되고 있는 것이다. 자연과학과 정보과학이 성공적으로 만난 대표적인 사례는 생물정보학(Bio Informatics)으로서, 2000년대 초반 인간 유전체인 지놈에 대한 30억 개 염기서열 해독이 완료 (Human Genome Project) 되면서 이 정보를 이용한 질병의 진단, 치료 및 신약개발이 활발히 진행되고 있다.
데이터 기반의 소재 연구 (소재정보학: materials Informatics)란 계산 과학에 의한 특성 예측과 이를 실증하는 고속 (high throughput) 합성 및 평가, 그리고 소재물성 데이터베이스와 기계 학습 등을 통합적으로 활용하여 신소재를 탐색하고 설계하는 연구개발 활동 전반을 말한다. 실험 및 계산에 의해 얻어진 물질 정보와 데이터들을 통계적으로 분석함으로써 소재의 구조와 물성을 결정하는 핵심인자를 파악하고, 이를 통해 새로운 소재를 빠른 속도로 탐색할 수 있는 연구 방법론이다. 소재정보학의 궁극적인 목표는 이론 연구자가 정보학에 의해 파악된 핵심 인자로부터 재료 특성을 지배하는 법칙을 발견하고 재료 설계를 가능케 하는 체계적인 접근 방식을 구축하는 것이라고 할 수 있다.
컴퓨터와 계산 방법의 발전으로 인해 실험과 이론을 융합하는 계산과학은 소재 연구의 새로운 수단으로 중요한 위치를 차지하고 있다. 그러나 최근에는 이러한 실험, 이론, 계산의 모든 연구 데이터들을 활용하려는 데이터 기반 연구의 중요성이 크게 인식되고 있다. 그 배경으로는 제일원리 계산에 의한 물성 데이터베이스의 구축, 대형 시설과 첨단 실험 장비를 이용한 효율적인 합성 및 분석기술의 발전 등을 들 수 있다. 시뮬레이션과 유사한 조합실험법이나 데이터베이스와 융합시킨 ‘데이터 과학’기법을 신소재의 탐색에 적극 활용함으로써 반복되는 실험과 계산을 거쳐 결과를 얻어내는 과정을 생략할 수 있고, 따라서 신소재 개발과 활용까지의 소요시간을 크게 단축할 수 있을 것으로 기대하고 있다.
조합실험법은 10년 전에도 활발히 연구되었다가 주춤하고 있는 분야이지만, 최근 제일원리계산에 의해 도출된 신소재 후보 물질을 조합실험법을 통해 합성하고 그것을 방사광 가속기 등 대형장비를 통해 종합적으로 평가하는 효율적 연구 과정을 구현할 것으로 기대되는 분야이다. 계산 과학에 기반을 둔 소재 정보학의 개념은 2000년경부터 제안되고 있었다. 당시에는 다룰 수 있는 원자 수와 정확도에 한계가 있었고, 대량의 데이터를 통합하고 분석하여 재료 과학의 문제를 해결하는 통계 과학적 기법도 충분치 못하여 그 적용 범위가 제한적이었다. 그러나 최근 몇 년간 컴퓨팅 기술의 발전과 대량의 데이터를 취급 할 수 있는 환경이 구축됨에 따라 이러한 상황이 극적으로 변하고 있다.
특히, 2011년 미국의 Materials Genome Initiative나 일본의 Materials Research by Information Integration Initiative 사업 그리고 우리나라의 미래소재 디스커버리 사업 등 관련된 국가적 사업이 시작됨에 따라, 계산 과학과 데이터 마이닝을 융합시킨 데이터 기반의 재료 설계 혹은 고속 스크리닝 기법이 주목을 받으며 전 세계적으로 활발한 연구가 이루어지고 있다. 이처럼 빅데이터를 활용한 정보과학 기술의 발전은 나노 기술·소재의 연구 개발 방법 자체에도 큰 영향을 주기 시작했다. 매 순간 새롭게 만들어지고 업데이트되는 대량의 실험 데이터가 축적되면, 이 데이터로부터 새로운 재료에 대한 지식의 발견이 가능해 지고 원하는 특성을 가진 재료의 효율적인 설계 및 탐색이 가능해 질 것이다. 이에 따라 전 세계적으로 데이터 기반 소재 연구라는 새로운 접근법에 대한 노력이 경주되고 있다.
■ 데이터 기반 소재연구의 분석
빅데이터 기반 연구방식은 이미 다양한 분야에서 신소재 개발을 가속화시키고 있다. 본 글에서는 구체적인 성공 연구사례를 통해 이 분야에 대한 이해를 도모하고자 한다. <그림 3-4-1-2>와 같이 빅데이터 기반 소재연구는 크게 세가지 유형으로 나누어 볼 수 있다. 첫째 유형은 방대한 양의 데이터를 다양한 각도로 시각화시키는 플랫폼을 개발하는 연구이다. 이와 같은 시각화 플랫폼은 언뜻 보기에는 수집된 데이터를 분류/정리하는 정도의 수준으로 보이지만, 방대한 양의 데이터가 모이면 관련 연구자들이 특정 재료들만 연구할 때 간과할 수 있는 지식과 통찰력을 제공한다. 둘째 유형은 고속 대량 (high-throughput: HT) 스크리닝 연구로서 연구자들이 원하는 물성을 가지는 신소재를 발굴하는데 매우 유용하다. 방대한 양의 소재들에 대하여 관심갖는 물성을 빠르게 스크리닝하여 극소수의 원하는 재료들을 발굴해내는 접근법이다. 마지막 유형은 수집된 데이터들 간에 유용한 상관관계를 통계적으로 학습시키는 연구이다. 학습이 성공적으로 이루어질 경우, 물성 예측이 매우 가속화될 수 있기 때문에 앞서 소개된 HT 스크리닝의 한계점을 보완할 수 있다.
유형 1. 웹 기반 시각화 플랫폼
미국 캘리포니아 주립대학교 (UCSB) Ram Seshadri 교수 연구실에서는 100편이 넘는 기출판된 논문들로부터 열전소자 성능변수(zT, S, σ, κ) 데이터를 총 18,000개 이상 추출하여 데이터베이스화 시켰다.
더 나아가 이 방대한 양의 데이터들을 기반으로 웹 기반 시각화 플랫폼 (web-based visualization platform)으로 설계함으로써, 관련분야 연구자들이 특정 재료에 대해서 단편적인 연구를 진행할 때에는 발견하기 힘든 지식 또는 통찰력을 제공해준다.
<그림 3-4-1-3>는 수집된 모든 열전소재 데이터들에 대해 열전도도 (x축), 전기전도도 (y축), 그리고 zT (마커 사이즈)를 한 눈에 볼 수 있도록 정리해서 보여주는 그래프이다. 이 그래프에서는 특별한 기술적 도구의 도움 없이 육안으로도 마커가 큰 데이터들 (즉 열전성능이 좋은 재료들)이 그래프 좌상단에 집중되어 있음을 알아낼 수 있다. 더 구체적으로는 고성능 열전재료들은 대부분 (1) 열전도도 값이 0.5∼5 (W/mK), (2) 전기전도도 값이 100∼2000 (Ω-1cm-1) 범위에 존재한다. 이와 같이 데이터의 축적 및 시각화로부터 얻은 지식은 연구자들이 향후 연구를 기획하고 진행하는데 큰 통찰력과 방향성을 제시해준다.
공공재 성격, 정부 정책·공공연구기관 역할 중요
하드웨어 인프라 정비·공유, 정보학 역량 고도화
유형 2. HT 스크리닝
미국 듀크대 Stefano Curtarolo 교수 연구팀은 Half-Heusler Half-Heusler 반도체들에 대하여 격자 열전도도 (lattice thermal conductivity, κw) 값을 HT 스크리닝하여, 유망 열전소재들을 제시하였다.
이 연구팀은 현존하는 최고의 열전소재들 (BiTe, PbTe, CuSe 등)이 격자 열전도도가 유난히 낮다는 점에 착안하여, 조합 가능한 79,000개의 Half-Heusler 반도체들에 대하여 κw < 5 (W/mK) 인 네 가지 신재료 (BiBaK, PtLaSb, RhLaTe, SbNaSr)들을 찾아낼 수 있었다.</p>
79,000개의 재료를 “실험”에 일일이 적용해보는 것은 사실상 무한대의 시간과 노력을 필요로 한다. 해당 연구진은 이러한 한계를 극복하기 위해서 격자 열전도도를 정확하고 빠르게 예측할 수 있는 모델을 설계하는데 성공하였고, 그 결과 방대한 양의 데이터베이스를 확보할 수 있었다. 추후 HT 스크리닝을 통해 걸러진 네 가지 재료에 대해서만 집중적인 실험검증을 할 수 있어, 신소재 개발에 투입되는 시간과 돈이 매우 절약될 수 있다.
HT 스크리닝 방법론은 열전소자 분야 뿐만 아니라 촉매재료 개발 연구에도 성공적으로 적용된 바 있다. 미국 스탠포드대 Jens Nørskov 교수 연구팀은 Pt을 능가하는 수소 생성용 전기화학 촉매를 찾는 연구를 보고하였다.
이 연구팀은 700개가 넘는 이원계 합금 재료에 대하여 반응성 디스크립터로서 수소원자의 표면 흡착에너지를 제일원리 계산을 통해 축적하였다. 위 그림 에서 수소 원자 흡착에너지 (ΔGH)가 0 eV에 가까울수록 수소생성 반응성이 높을 것으로 예측되는데, 이런 예측에 기반하여 Pt을 넘어설 수 있는 유망 촉매재료로 BiPt, RhRe 등의 합금 등이 제시되었다. 매우 흥미롭게도 연구팀은 BiPt 촉매의 수소생성 반응성이 실제 실험에서도 순수 Pt 금속보다 더 훌륭하다는 것을 해당 연구에서 검증하였다. 본 연구는 HT 스크리닝 방법으로 신물질을 발굴해내는 훌륭한 예시로 꼽힌다. 700개가 넘는 이원계 합금의 전기화학적 촉매특성을 실험에서 일일이 살펴보는 것은 매우 도전적이고 오래 걸리는 작업이다. 본 예시에서 확인하였듯이 HT 스크리닝 방법론은 이러한 한계를 극복하여 신물질 개발을 매우 빠른 속도로 가속화시킬 수 있다.
유형 3. 통계적 학습법
최근 들어서는 축적된 데이터를 통계적으로 학습시키는 기술 (기계학습법)이 신소재 개발 연구에 적용되고 있다. HT 스크리닝 방법론이 신소재 개발을 가속화하고 있음은 틀림없지만, 방대한 양의 데이터를 계산 또는 실험으로 축적해내는 것은 여전히 큰 도전이다. 이를 극복하기 위한 노력의 일환으로 기축적된 데이터를 통계적으로 학습시키는 기계학습법이 소재분야에서 활발해지고 있다. 이 방법론은 기축적된 재료들의 구조 정보와 물성 정보 간에 유용한 상관관계를 찾아내어, 최종적으로는 전혀 학습되지 않은 재료에 대해서도 빠른 속도로 소재 물성을 예측하는데 목표를 두고 있다.
앞서 소개했듯이 촉매 표면상의 흡착에너지는 화학반응성의 디스크립터로 널리 알려져 있다. 그러나 흡착에너지 값은 다양한 반응물 및 흡착사이트 종류를 값비싼 양자계산을 기반으로 계산하여야 얻을 수 때문에 매우 많은 컴퓨팅 자원과 시간을 요구한다. 이 연구팀은 이원계 합금 재료에 대하여, 전기음성도 및 몇 가지의 d-밴드 성질들과 반응물 (본 연구에서는 CO) 흡착에너지의 상관관계를 인공신경망 알고리즘으로 학습시켰다. 그 결과 개발된 기계학습 모델을 기반으로 전혀 학습된 적이 없는 촉매재료들의 흡착에너지를 매우 정확하고 빠르게 예측하였다 (제곱 평균 에러 0.13 eV). 촉매 분야는 촉매재료 후보군, 화학반응 종류, 화학반응 경로 등이 너무나 다양하고 복잡하기 때문에 일일이 실험이나 계산을 진행하여 신재료를 찾아내기가 매우 힘든 분야이다. 통계적 학습법의 도입은 이러한 한계를 극복시켜 신촉매 재료 개발이 더욱 가속화될 것으로 기대된다.
이러한 유형들의 빅데이터 기반 소재개발 연구는 태양전지, 물 광분해, 가스 저장/분리, 압전소자, 열전소자, 촉매, 배터리, 트랜지스터 등의 응용 분야에 이미 다양하게 적용되고 있다. 이 모든 것들을 소개하기에는 지면이 부족하므로, 본 글에서는 “열전소자”와 “촉매” 두 분야에서 이루어진 사례들을 중점적으로 설명하고, 나머지 분야들에 대해서는 <표 3-4-1-1>에 정리하였다.
■ 데이터 기반 소재연구를 위한 정책적 기술적 과제
소재 정보학의 성공을 위해서는 무엇보다도 소재 빅데이터의 구축이 선결되어야 할 과제이다. 소재 빅데이터는 공공재의 성격이 강하기 때문에 정부 정책이나 공공연구기관의 역할이 구축과 활용 단계 모두에서 매우 중요하다. 특히, 소재 관련 데이터베이스의 구축 및 새로운 알고리즘에 기반한 시뮬레이션 소프트웨어의 개발 등은 연구 성과의 실용화를 목표로 하는 과제들과는 전혀 다른 성격을 가지고 있다. 따라서, 소재정보학의 발전을 위해서는 국가적 차원에서의 정책 수립과 실행이 반드시 필요하다. 여기에는 하드웨어 인프라의 정비·공유 뿐 아니라 지적 기반 (소프트웨어 인프라)의 정비와 공유도 포함된다. 즉, 소재분야의 빅데이터를 활용하기 위한 정보학의 역량도 함께 고도화되어야 한다. 또한, 다양한 소재 데이터를 연구자가 쉽게 이용할 수 있는 환경도 충분치 않기 때문에, 이를 해결할 국가적 인프라의 구축도 시급한 중요 과제라고 할 것이다.
데이터 기반 소재연구는 데이터의 상호 이용을 전제로 하고 있기 때문에 특히 정교하게 설계된 정책 추진 방안이 제시되어야 한다. 소재는 모든 산업의 기반이어서 그 데이터가 널리 공유되어야 하지만 그 수는 턱없이 부족한 상황이다. 더구나 소재 공정 데이터는 거의 전무한 실정이어서 기업이 가지고 있는 공정 데이터의 공유도 필요하다. 그러나 소재 기업에서는 수십 년간 시행착오를 통해 구축한 공정 데이터를 핵심 경쟁력으로 인식하고 있어서 이는 쉽게 해결될 수 없는 문제이다. 연구개발은 기본적으로 경쟁적 성격이 강해 타인과의 데이터 공유를 쉽게 수용할 수 없는 분야이다. 따라서 데이터의 비공개와 공개의 기준, 데이터 공개의 인센티브, 연구자와 연구 성과에 대한 평가 등에 대해 모두가 수긍할 수 있는 합리적 시스템을 갖추어야 한다. 이와 함께 소재와 정보학이 융합된 새로운 분야를 이끌어 갈 융합형 소재 인력의 육성 정책 또한 시급한 과제이다.
정보학 기반 소재개발의 기술적 과제들도 산적해 있다. 제일원리계산 및 시뮬레이션 결과를 이용한 데이터 기반의 연구는 연구 대상을 유닛셀 크기의 결정체에 한정한 경우 많은 성과를 거두고 있다. 이 경우에는 컴퓨팅 자원에 따라 데이터의 수를 크게 늘릴 수 있기 때문에 높은 신뢰도 수준에서 가장 우수한 물질을 탐색해 낼 수 있다. 그러나 소재 개발이란 원재료에서 가공재료에 이르기까지 원자, 분자, 나노, 마이크로 그리고 매크로 스케일에서 복잡하게 상호작용하는 구조와 인자들을 이해하고 제어해야 하는 분야이다. 구조 재료의 개발을 좀 더 자세히 살펴보면 나노 스케일에서는 전위를 포함한 결함의 밀도와 분포, 용질 원자의 배열과 분포, 입계 및 계면 구조의 제어가 필요하다. 마이크로 스케일에서는 결정립의 크기와 모양, 응력과 변형의 분포를, 매크로 스케일에서 결함이나 용질 편석 잔류 응력 등 매우 다양한 요소들을 제어해야 한다. 이러한 요소들을 어떻게 데이터베이스화 할 것인가, 그리고 이 데이터들이 합성과 가공 공정에 민감하게 의존한다면 그러한 메타 데이터를 어떻게 부여할 것인가, 각 요소의 공간적 시간적 변화 정보를 어떻게 부여할 것인가 등 많은 문제가 검토되어야 한다. 또한, 바이오 등 타 분야의 데이터베이스와 달리 소재 데이터는 소재만의 특이점이 있다. 소재는 동일 조성에도 공정에 따라 그 특성이 모두 다르게 나타난다. 따라서 소재 데이터베이스에는 소재공정 데이터도 함께 수집되어야 한다. 어느 범위까지의 데이터베이스를 구축하는 것이 바람직 할지, 그리고 이상적인 데이터베이스가 구축된다고 해도 데이터로부터 원래의 소재를 재현할 수 있는지 등에 대한 면밀한 검토가 필요하다.
소재 데이터베이스 구축에 있어서 가장 어려운 점은 어떻게 자료를 수집할 것인가 하는 점이다. 그 대책 중 하나는 실험 장치에서 나오는 데이터를 직접 가져오는 방법이다. 이것은 향후 실험 노트가 종이 기반에서 전자화되면 이를 데이터베이스에 연동시킴으로써 해결될 수 있을 것이다. 일본 NIMS의 MatNavi는 기존의 논문에서 수동으로 데이터를 추출하여 데이터베이스화 하고 있지만 이미 한계에 도달하고 있다. 이는 발표 논문의 수가 최근 기하급수적으로 증가하고 있기 때문에 수작업으로 데이터를 수집하는 것이 거의 불가능한 상황이기 때문이다. 이를 극복하기 위해서는 텍스트 마이닝 기술의 적극적인 활용을 생각해 볼 수 있다.
이 경우 문제가 되는 것은 데이터의 품질이다. 텍스트 마이닝에 의한 데이터의 품질을 어떻게 보장할 것인가는 텍스트 마이닝 분야의 새로운 연구 주제이기도 하다. 텍스트 마이닝의 저작권과 법적 문제도 함께 정비되어야 한다. 데이터 수집 활동의 인센티브 부여 문제도 숙고할 필요가 있다. 데이터를 수집하고 이를 데이터베이스화 하여 제공하는 활동이 현재는 많은 경우 평가 항목에서 제외되어 있다. 또한 데이터의 공유 범위를 어떻게 결정 하는가하는 문제도 정리되어야 한다. 데이터 과학자와 데이터 큐레이터의 육성 방안 역시 향후 큰 문제가 될 것으로 예상된다. 또한, 지속적인 인프라로서 데이터의 수집, 관리, 제공 기능을 유지하기 위해서는 한시적 프로젝트가 종료되어도 이를 관리하고 운영하는 새로운 거점 조직의 설치가 필요하다.
다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.
http://amenews.kr/news/view.php?idx=41439