2024.04.18 (목)

  • 구름많음동두천 20.9℃
  • 구름조금강릉 22.7℃
  • 흐림서울 21.7℃
  • 맑음대전 24.6℃
  • 맑음대구 25.7℃
  • 구름조금울산 23.8℃
  • 맑음광주 23.4℃
  • 구름조금부산 25.1℃
  • 맑음고창 23.7℃
  • 구름많음제주 23.0℃
  • 구름많음강화 21.1℃
  • 구름조금보은 22.0℃
  • 맑음금산 23.5℃
  • 구름조금강진군 24.4℃
  • 구름조금경주시 25.0℃
  • 구름조금거제 24.9℃
기상청 제공

기관/단체

분절된 자료 연계한 건강보험 빅데이터 2.0, 상세 내용은?

행정전산망 기준 세대주 단위로 세대원 재구성해 연구 환경 확대

'건강보험 빅데이터 2.0'을 통해 심도 있는 빅데이터 활용 연구가 가능해질 전망이다. 

20일 그랜드힐튼서울호텔에서 열린 대한소화기학회 춘계학술대회에서 '건강보험 빅데이터를 통한 공익연구 활성화 전략' 주제로 발제한 국민건강보험공단(이하 공단) 빅데이터실 조규동 부연구위원(이하 조 위원)은 정책적 · 공익적 연구에 한해 제공되는 건강보험 빅데이터 2.0(이하 DB 2.0)의 주 내용을 소개했다.

앞서 공단 빅데이터실에서는 인구, 지리, 사회, 경제, 사회자원, 취약계층, 건강의료이용 등 7가지 주제로 건강보험 빅데이터를 재구축해 지난해 11월부터 별도 심의를 통해 제공하고 있다.

해당 자료는 건강보험자료 공유서비스(http://nhiss.nhis.or.kr)에서 신청 가능하며, 자료 신청을 위해서는 연구계획서 및 IRB 승인 확인서가 필요하다. 자료제공 심의위원회를 거쳐 제공 여부가 결정되면 약 한 달 이내로 자료를 받아볼 수 있다.



◆ 분절된 건강보험 빅데이터, 가공 · 정제 · 연계로 다양한 연구 도모

DB 2.0의 인구 데이터는 국내에 거주하는 전 국민을 분석 대상 인구로 정의했다. 거주 내역과 국적 변경을 조합해 실거주자를 정의했으며, 관찰기간 내 국내 비거주자는 제외됐다. 또, 자료원마다 달랐던 사망일자를 정제해 정확도를 한층 높였다. 

조 위원은 "공단 원주 본부에서는 지난해 말 건강보험 빅데이터 분석센터 내에 통계청 RDC(Research Data Center, 마이크로데이터 이용 센터)를 통합 개설했다."며, "공단의 맞춤형 자료를 신청하면, 통계청의 사망원인통계 자료를 손쉽게 사용할 수 있다."고 말했다. 

지리 데이터의 경우 건강보험증 주소가 아닌 전국민 주민등록지 기준으로 제공된다. 실제 해당 장소가 유효한지에 대한 행정구역 변경내역 이력 데이터도 구축됐다. 

아울러 전 국민 · 사업장 · 요양기관 · 요양시설의 실제 상세주소를 위도상에 표시했다.

조 위원은 "A병원의 경우 병원 위치는 변동이 없으나 지번 · 도로명 등 주소 체계에 따라 계속 바뀐다. 이에 공단에서는 X좌표와 Y좌표를 찍어 100미터 단위로 지도를 구축했다."며, "이 지도는 5월 3일 오픈하며, 일반인에게도 공개할 예정"이라고 말했다.

이어 "지도를 통해 환자와 요양기관 간 거리 · 시간을 계산할 수 있다. 예를 들어 환자가 30분 내 도달 가능한 병원이 없는 지역을 쉽게 살펴볼 수 있게 했다."고 말했다.

사회 데이터는 실제 생계를 같이 하는 주민등록 기준으로 가구가 정의됐다. 행정전상망 기준 세대주 단위로 세대원을 재구성하면서 직장가입자와 거주하지 않는 피부양자 세대를 분리하고, 함께 거주하는 맞벌이 부부를 단일 세대로 구성했다. 

또한, 본인 및 배우자의 4촌 이내 친족 관계를 나타낼 수 있는 코드도 개발됐다. 예를 들어 1AW의 경우 본인의 손위 여성인 내 어머니를 나타내는 코드가 된다. 



DB 2.0이 구축되면서 가족 연계율도 살펴볼 수 있다. 2010년대생의 경우 형제자매 연계율은 72%로, 28%p는 형제자매가 없는 상태로 분석된다. 

조 위원은 "실제 세대 구성에 대한 데이터로 당뇨병의 영향력을 볼 수 있다. 배우자는 구성원이지만 당뇨 영향력이 거의 없다. 주로 어머니 쪽에서 자녀에게 영향을 미치는 것을 살필 수 있다."고 말했다. 

◆ 데이터 활용 어려운 전공의 대상 아카데미 예정, 1년 2번 서울서 개최

이번에 구축된 데이터는 다문화가정, 한부모가정, 독거노인 등 사회 취약 계층 발굴을 위한 정책적 · 공익적 연구에 한해 심의를 거쳐 별도로 제공된다. 

이날 좌장으로 참석한 공단 강형수 빅데이터실장은 "기존에는 공단 자료를 신청할 경우 두세달가량 걸렸는데 5월 10일부터는 신청 후 약 한 달 정도만 기다리면 자료를 받아볼 수 있다."고 말했다.

이어 "국립암센터, 질병관리본부의 유전체 자료, 건강보험심사평가원, 공단 자료를 연계해서 활용할 수 있도록 플랫폼도 구축하고 있다. 현재 내년 과제를 공모 중인데 신청할 경우 4개 기관의 자료를 같이 볼 수 있다."고 했다.

건강보험 빅데이터 활용을 돕기 위한 전공의 대상 아카데미도 1년 2번 서울에서 개최될 예정이다. 강 실장은 "스타트기업 또는 전공의 대상으로 산학연계 아카데미를 만들어 예비 시뮬레이션을 통해 쉽게 자료 해석을 할 수 있도록 할 계획"이라고 밝혔다.