'건강보험 빅데이터 2.0'을 통해 심도 있는 빅데이터 활용 연구가 가능해질 전망이다.
20일 그랜드힐튼서울호텔에서 열린 대한소화기학회 춘계학술대회에서 '건강보험 빅데이터를 통한 공익연구 활성화 전략' 주제로 발제한 국민건강보험공단(이하 공단) 빅데이터실 조규동 부연구위원(이하 조 위원)은 정책적 · 공익적 연구에 한해 제공되는 건강보험 빅데이터 2.0(이하 DB 2.0)의 주 내용을 소개했다.
앞서 공단 빅데이터실에서는 인구, 지리, 사회, 경제, 사회자원, 취약계층, 건강의료이용 등 7가지 주제로 건강보험 빅데이터를 재구축해 지난해 11월부터 별도 심의를 통해 제공하고 있다.
해당 자료는 건강보험자료 공유서비스(
http://nhiss.nhis.or.kr)에서 신청 가능하며, 자료 신청을 위해서는 연구계획서 및 IRB 승인 확인서가 필요하다. 자료제공 심의위원회를 거쳐 제공 여부가 결정되면 약 한 달 이내로 자료를 받아볼 수 있다.
◆ 분절된 건강보험 빅데이터, 가공 · 정제 · 연계로 다양한 연구 도모
DB 2.0의 인구 데이터는 국내에 거주하는 전 국민을 분석 대상 인구로 정의했다. 거주 내역과 국적 변경을 조합해 실거주자를 정의했으며, 관찰기간 내 국내 비거주자는 제외됐다. 또, 자료원마다 달랐던 사망일자를 정제해 정확도를 한층 높였다.
조 위원은 "공단 원주 본부에서는 지난해 말 건강보험 빅데이터 분석센터 내에 통계청 RDC(Research Data Center, 마이크로데이터 이용 센터)를 통합 개설했다."며, "공단의 맞춤형 자료를 신청하면, 통계청의 사망원인통계 자료를 손쉽게 사용할 수 있다."고 말했다.
지리 데이터의 경우 건강보험증 주소가 아닌 전국민 주민등록지 기준으로 제공된다. 실제 해당 장소가 유효한지에 대한 행정구역 변경내역 이력 데이터도 구축됐다.
아울러 전 국민 · 사업장 · 요양기관 · 요양시설의 실제 상세주소를 위도상에 표시했다.
조 위원은 "A병원의 경우 병원 위치는 변동이 없으나 지번 · 도로명 등 주소 체계에 따라 계속 바뀐다. 이에 공단에서는 X좌표와 Y좌표를 찍어 100미터 단위로 지도를 구축했다."며, "이 지도는 5월 3일 오픈하며, 일반인에게도 공개할 예정"이라고 말했다.
이어 "지도를 통해 환자와 요양기관 간 거리 · 시간을 계산할 수 있다. 예를 들어 환자가 30분 내 도달 가능한 병원이 없는 지역을 쉽게 살펴볼 수 있게 했다."고 말했다.
사회 데이터는 실제 생계를 같이 하는 주민등록 기준으로 가구가 정의됐다. 행정전상망 기준 세대주 단위로 세대원을 재구성하면서 직장가입자와 거주하지 않는 피부양자 세대를 분리하고, 함께 거주하는 맞벌이 부부를 단일 세대로 구성했다.
또한, 본인 및 배우자의 4촌 이내 친족 관계를 나타낼 수 있는 코드도 개발됐다. 예를 들어 1AW의 경우 본인의 손위 여성인 내 어머니를 나타내는 코드가 된다.
DB 2.0이 구축되면서 가족 연계율도 살펴볼 수 있다. 2010년대생의 경우 형제자매 연계율은 72%로, 28%p는 형제자매가 없는 상태로 분석된다.
조 위원은 "실제 세대 구성에 대한 데이터로 당뇨병의 영향력을 볼 수 있다. 배우자는 구성원이지만 당뇨 영향력이 거의 없다. 주로 어머니 쪽에서 자녀에게 영향을 미치는 것을 살필 수 있다."고 말했다.
◆ 데이터 활용 어려운 전공의 대상 아카데미 예정, 1년 2번 서울서 개최
이번에 구축된 데이터는 다문화가정, 한부모가정, 독거노인 등 사회 취약 계층 발굴을 위한 정책적 · 공익적 연구에 한해 심의를 거쳐 별도로 제공된다.
이날 좌장으로 참석한 공단 강형수 빅데이터실장은 "기존에는 공단 자료를 신청할 경우 두세달가량 걸렸는데 5월 10일부터는 신청 후 약 한 달 정도만 기다리면 자료를 받아볼 수 있다."고 말했다.
이어 "국립암센터, 질병관리본부의 유전체 자료, 건강보험심사평가원, 공단 자료를 연계해서 활용할 수 있도록 플랫폼도 구축하고 있다. 현재 내년 과제를 공모 중인데 신청할 경우 4개 기관의 자료를 같이 볼 수 있다."고 했다.
건강보험 빅데이터 활용을 돕기 위한 전공의 대상 아카데미도 1년 2번 서울에서 개최될 예정이다. 강 실장은 "스타트기업 또는 전공의 대상으로 산학연계 아카데미를 만들어 예비 시뮬레이션을 통해 쉽게 자료 해석을 할 수 있도록 할 계획"이라고 밝혔다.