메디포뉴스

주메뉴 바로가기
본문 바로가기

2026.03.22 (일)

기관/단체

보건의료 빅데이터 '재식별' 위험? 케케묵은 논의

김재용 교수, "비식별화 기술 문제로 논의 끌고 가선 안돼"

김경애 기자 seok@medifonews.com
등록 2017-11-30 05:50:00

심평원이 개인건강정보를 민간보험사에 팔아넘긴 사건 이후 정부가 추진하는 보건의료 빅데이터 사업에 우려 섞인 목소리가 나오면서 관련 대책을 논의 · 요구하는 토론회 자리가 마련됐다.

'심평원 및 약학정보원 개인질병정보 판매 행위로 본 현 정부의 보건의료 빅데이터 추진 전략의 문제점' 주제로 지난 27일 오후 1시 30분 국회의원회관 제8간담회실에서 개최된 토론회에서, '의료정보에 대한 비식별 조치 및 재식별의 위험성'으로 정보인권연구소 이은우 이사(법무법인지향 변호사)가 발제를 맡았다.

이은우 이사는 단 4조각의 위치와 시간 정보로 대부분 정보가 재식별화가 가능하다면서, 특정 개인의 위치정보나 궤적정보는 익명화 처리를 해도 외부 정보들을 활용해 손쉽게 재식별할 수 있다고 했다.

MIT 미디어랩 Yves-Alexandre de Montjoye 교수 등이 진행한 'Unique in the Crowd: The privacy bounds of human mobility' 연구(2013)에 따르면, 단 4조각의 외부 정보만 있어도 위치정보가 특정인을 재식별화할 수 있음이

확인됐다. 통신서비스를 통해 수집된 위치정보를 익명화할지라도 시간 · 장소를 알 수 있는 트윗, 영화관, 방문, 쇼핑 등의 정보 부스러기를 조합해 손쉽게 개인을 재식별할 수 있다는 것이다.

위치정보 일종으로 볼 수 있는 톨게이트 통과 정보도 매우 민감한 정보를 포함하고 있는데, 2013년 11월 밀라노 톨게이트 데이터 60만대 분석에 따르면, 단 2~3곳의 정보만으로도 개인 재식별이 가능한 것으로 확인됐다.

11월에 단일한 사람이 식별되기 위해 필요한 지점 수. (a)는 10분 단위, (b)는 1시간 단위, (c)는 6시간 단위

카드 구매내역 정보는 익명처리를 하더라도 재식별 가능성이 매우 높다. MIT 미디어랩 Yves-Alexandre de Montjoye 교수 연구에 따르면, 110만 명의 3개월간 신용카드 사용기록에 1만 개의 가맹점이 있는 경우, 단 4개의 시공간 점이면 개인을 고유하게 식별하는 비율이 90%에 달한다고 한다.

이 이사는 "그렇다면 의료정보는 어떨까? 2013년도에 유명한 실험(Matching known patients to health records in washington state data)이 있다. 하버드 대학교 Latanya Sweeney 교수가 익명화 처리한 81명의 의료기록으로 신문기사를 통해 35명을 재식별했다. 이 실험으로 입원, 교통사고 등의 신문기사나 소셜미디어 정보를 통해 재식별이 가능한 것이 확인됐다."라고 했다.

한편, 보건복지분야에서는 국가승인통계와 주요 빅데이터를 많이 보유하고 있다. 우리나라 빅데이터는 OECD 국가 중 2번째로서 수준이 매우 높다. 이 이사는 "이렇게 모인 데이터들의 법적 근거가 굉장히 불명확하다."라면서, "코호트 DB 또한 악용될 수 있다. 십여 년 동안 추적 · 관찰한 데이터를 대상의 사전동의 없이 연구용으로 제공한다. 법적 근거부터 갖출 필요가 있다."라고 주장했다.

이 이사는 "가장 무서운 정보는 국민건강보험 정보이다. 요양급여, 건강검진 등 개인정보가 다 들어있다. 이런 정보들이 주민등록번호 활용하면 다 연계된다. 그런데 국민건강보험 정보를 통합해서 그리고 자격 정보까지 갖고 있어도 된다는 법적 근거는 아무리 찾아봐도 없다."라고 지적했다.

그리고 "심평원에서 요양급여 청구명세서 정보를 굉장히 많이 모으고 있다. 청구정보는 개인의 민감한 정보들을 포함하고 있어서 법에 근거해 개인이 정보를 삭제 · 수정 요청할 수 있어야 한다."라면서, "외국의 경우 연구목적으로 데이터 사용 시 법에 기반을 둬 가능한 한 익명화하고 제한 두고 있는 반면 우리나라는 전혀 신경 쓰고 있지 않다."라고 지적했다. 또한, "문제는 연구목적으로 데이터를 쓸 경우 외국은 내용을 다 공개하지만 우리나라는 비공개로 하고 있다는 점이다."라고 했다.

이 이사는 "청구정보에는 어떤 종류의 의료기관이며 무슨 치료를 받았으며 하는 상세한 내역들이 다 들어있다. 이 정보들을 조합하면 딱 한 명밖에 나오지 않는다."라고 말했다.

코호트 DB는 비식별화한 후 제공된다. 이 이사는 "비식별화된 코호트 DB의 재식별 가능성은 매우 높다. 요양기관 대체식별번호, 민감상병 외의 상병으로 충분히 가능하다. 나는 이쪽 문외한이지만 얼마든지 재식별화하라고 한다면 재식별화할 수 있다."라고 말했다.

한편, 지난 10월 24일 국회 보건복지위원회 소속 정춘숙 의원(더불어민주당)이 건강보험심사평가원으로부터 제출받은 자료에 따르면, 2014년 7월부터 2017년 8월까지 KB생명보험 등 8개 민간보험사 및 2개 민간보험연구기관이 당사 위험률 개발과 보험상품연구 및 개발 등을 위해 요청한 '표본 데이터셋'을 심평원이 1건당 30만 원의 수수료를 받고 총 52건(누적 약 6,420만 명분)을 제공한 것으로 나타났다.

이 이사는 "심평원은 소위 비식별 조치로 원천DB에서 환자 이름을 삭제하고 주민등록번호를 H-PIN(대체키)으로 변환했으며, 2차 비식별화 조치로 가명처리, 데이터 삭제, 데이터 마스킹 등의 기법을 사용했다. 그런데 환자의 몇몇 정보만으로도 재식별은 충분히 가능하다. 그리고 환자의 동의 없이 민감한 건강정보를 제공한 것은 개인정보보호법 위반에 해당한다."라고 했다.

끝으로 이 이사는 "이런 상황에서 비식별화하니까 안전하다는 논리는 매우 위험하다. 지금은 법제화를 먼저 할 때다. 안전장치 하나 없이 100억 대 예산을 타내서 빅데이터 플랫폼을 만든다고 하는 것은 앞뒤가 맞지 않는 논리이다."라고 주장했다.

이은우 이사의 발제가 끝나고 토론이 이어졌다. 이날 토론에는 건강과대안 변혜진 상임연구원, 참여연대 사회복지위원회 이찬진 실행위원(변호사), 성공회대학교 열림교양대학 김병수 교수, 건강보험심사평가원 빅데이터부 김록영 부연구원, 보건복지부 의료정보정책과 오상윤 과장, 행정안전부 개인정보보호정책과 정영수 사무관이 참석했다.

건강보험심사평가원 빅데이터부 김록영 부연구원은 "최근 국정감사에서 데이터 제공과 관련해 심평원과 공단이 상반된 법률해석을 했고, 심평원이 영리 목적으로 데이터를 제공했다는 것이 지적됐다. 현재는 지적사항을 반영해 복지부 중심으로 공단과 공동으로 민간보험사에 데이터 제공을 중단한 상태다."라고 말했다.

김 부연구원은 "심평원은 환자데이터셋을, 공단은 표본연구DB를 보유 중이다. 이 둘은 비슷한 데이터로 보이며, 차이를 알기 쉽지 않다. 심평원 데이터는 매년 환자가 추출되는 연 단위 데이터로서 전년도 환자가 올해도 추출될 가능성이 희박하다. 반면에 공단 데이터는 특정 환자를 10여 년 정도 장기간 추적한 코호트 자료이다."라고 설명했다.

김 부연구원은 "장기간 추적 · 관찰된 자료와 특별한 면만 추출한 자료 사이에는 많은 차이가 존재한다. 심평원이 보유한 데이터는 코호트와 다르기 때문에 관리 방안을 다르게 해야 한다."라면서, "데이터 종류는 매우 많은데 각각의 데이터가 가지고 있는 특성에 따라 위험성도 다르다. 데이터의 위험성을 관리하고, 예방 차원에서 세분된 관리가 필요하다."라고 말했다.

김 부연구원은 "심평원이 판단하기에 발제자가 말한 정도의 재식별 확률이 있다고는 생각 안 한다. 심평원이 보유한 표본데이터셋은 코호트 자료보다 재식별 위험이 상대적으로 낮다. 물론 IT가 발달하면서 예기치 못한 상황이 발생할 수도 있다. 심평원 입장은 보유 데이터가 민간 활용도가 높고 재식별 가능성이 희박하다고 보지만, 국민이 우려하지 않도록 전면적으로 재검토할 예정이다. 희박한 위험 및 가능한 재식별 시나리오 고려해서 방안을 구성하고 추가로 검토할 예정이다."라고 말했다.

김 부연구원은 "심평원과 공단의 데이터를 활용하는 기업들이 내놓은 국제적인 학술연구물들은 의학 발전의 원동력이 되고 빅데이터 활용성을 반증하는 사례이다. 우리나라 빅데이터는 세계적임에도 불구하고 기대와 우려의 양면성이 상존하고 있다. 위험성, 활용, 목적 등 세부적인 활용기준을 마련한다면 안전 사용도를 높일 수 있을 것으로 생각한다."고 말했다.

건강과대안 변혜진 상임연구원은 "심평원이 공공데이터법에 기반을 둬 데이터를 제공했다고 했는데 공공데이터법에는 환자 개인정보를 제공해야 한다는 내용은 없다. 공공기관이 호도하고 있다."라면서, "질병기록정보는 과거 기록을 담고 있다. 민간보험, 사생활, 가족력 등을 포함한 정보가 바로 심평원과 공단에 축적된 정보이다. 국민들은 지금 '빅데이터 만드는데 어떻게 합의할 것이냐', '정보제공을 어디까지 동의할 것이냐', '어떠한 처리방법으로 정보 보호를 받을 수 있냐'를 묻고 있다."라고 말했다.

변 상임연구원은 "전 정부 때의 의료민영화 문제가 산더미마냥 쌓여있는데, 건강보험이 뒤흔들려지는 신뢰 문제를 어떻게 해결할 것인지 정부가 대답해야 한다."라면서, "빅데이터 활용을 떠나 개인건강정보 활용과 관련해 법적 기반이 없다. 어플 등에서 신체 · 건강 등의 정보를 수집한 것을 어떻게 이용 · 관리하는지 누가 정의를 내려야 한다."라고 말했다.

변 상임연구원은 "이전 정부에서는 민간기관이 수집한 정보를 어떤 식으로 활용해도 좋다는 내용으로 가이드라인을 제공했다. 비합법적 수집 활용 문제에 대해 합법화 근거를 만들어주고 있었다."라고 했다.

또한, 변 상임연구원은 "'페북에서도 인종차별 혹은 장애인 블로킹 등이 문젯거리가 되듯이 알고리즘을 설계하는 사람의 주관이 개입돼있다는 문제가 있다. 인터넷에 접근 전혀 못 하고 소득이 적은 사람은 데이터 입력이 아예 안 될 수도 있다. 복지부가 말하는 의료사각지대 극복을 위해 데이터를 사용하겠다고 하는 내용은 거꾸로 데이터 근본주의가 돼서 데이터가 입력이 안 돼 없는 문제가 발생한다. 이러한 차별 · 배제가 내재된 알고리즘은 누가 설계하고 어떻게 해결할 것인지 고민해야 한다."라고 말했다.

변 상임연구원은 "보건의료 플랫폼 예산 115억 원이 이번 달 내 통과될 수 있다. 이게 무엇을 위한 예산인지 모르겠다."라고 지적했다.

행정안전부 개인정보보호정책과 정영수 사무관은 "개인정보보호에 대해서는 이견이 없는 듯한데 이것을 얼마나 이용 · 보호할 건지에 관해서는 필요성을 이해하고 있다. 좀 더 많은 논의 · 토론을 위해 계속해서 노력하겠다."라고 말했다.

정 사무관은 "의료 빅데이터 정책 내용을 나는 충분히 잘 알지 못한다. 의료데이터가 어떠한 품질을 갖고 있고 개방 시 어떤 문제가 발생하는지 잘 알지 못하지만, 개인정보보호법 담당 업무를 수행하면서 지난해 말에 만들어진 식별 가이드라인에 대해 말하고자 한다."라면서, "얼마 전에 누가 어디에서 몇 시에 버스를 타고 몇 시에 하차했는지 등 정보 수집이 이뤄졌는데, 그 정보는 사람이 어디에서 탔고 어디에서 내렸으며 승하차 시간이 어느 정도인지에 대한 것으로서, 이러한 정보들을 기반으로 어느 노선을 어떻게 구축해야 할 것인지 정책 마련이 가능하다."라고 말했다.

정 사무관은 "비식별 개념에 관해 설명하자면, 10명의 사람이 있을 때 각각 유니크한 값을 갖는데, 만일 10명의 사람이 폐암, 대장암, 간암 등등을 가지고 있다고 가정한다면 이걸 뭉뚱그려서 암 혹은 병에 걸렸다고 한다. 데이터 특징을 보고 결정하는 것이 바로 데이터 가이드라인이다."라고 말했다.

정 사무관은 "지금은 빅데이터 혹은 의료데이터를 얼마나 쓰고 어떻게 이용할 것인지 사회적으로 합의가 필요한 시점이다. 어떻게 안전하게 조치하면서 적절한 활용방안을 마련할 수 있을 것인지 합의 과정이 많이 필요하다고 생각한다."라고 말했다.

참여연대 사회복지위원회 이찬진 실행위원은 "의료기관 · 약국에서 심평원으로 가는 급여청구 관련 정보의 처리와 관련해 수탁처리 프로그램 및 수탁처리자는 원칙적으로 제3의 공공기관이 담당하도록 법률 개정이 필요하다. 현재와 같은 약국 및 의료기관 급여 · 청구 관리 프로그램이 필요한 것이 현실임을 인정한다고 해도 이들이 처리하는 정보는 환자들의 민감정보라는 점에서 그 정보 처리자는 반드시 공공이 되어야 할 것이며, 이 단계에서 그 어떠한 형태의 정보처리 및 영리 사업화는 금지돼야 할 것이다."라고 말했다.

이 실행위원은 "심평원이나 공단이 업무상 취급하는 처방정보 · 진료정보에 관해 심평원과 공단의 정보처리권한과 보존기간을 분명히 하고, 비식별화 처리 주체 역시 공공이 공공적으로 관리 · 운영하며, 그 이용 목적 역시 공공적인 성격의 범위 내에서 운용될 필요가 있다. 이처럼 공적으로 가공돼 공표된 빅데이터를 기초로 해 필요한 경우 영리 민간 사업자들이 이차적으로 이를 활용하는 것은 가능할 것이다. 현재와 같은 방임형 빅데이터 산업화는 정보주체의 인권을 심각하게 침해할 수 있다."라고 주장했다.

보건복지부 의료정보정책과 오상윤 과장은 "빅데이터 추진전략을 최초 논의하면서 그림을 그렸던 것은 최종 완성된 형태가 아니었다. 새 정부가 들어서면서 추진 방향을 어떻게 설정할 것인지에 대해 정부 내부에서도 심층적인 논의가 진행됐다."라면서, "정부는 지난 8월에서 9월에 걸쳐 약 3차례 동안 시민 · 전문가 · 단체들과 간담회를 진행했다. 몇 시간 동안의 토론에서 심층적인 논의를 다 한다는 것은 사실상 불가능하기 때문에 약 3주 동안의 시간을 두고 이들에게 검토 의견을 요청했다."라고 말했다.

오 과장은 "보건의료 빅데이터 플랫폼 구축 사업 예산 115억 원 중 10억은 예산편성기준과정에서 사업이 묶여있어서 포함된 것으로 무관하다. 24억 원은 정보를 활용해서 분석한 결괏값만을 취합하는 각 기관이 보유하는 장치이기 때문에 복지위 상임위 심사 때 그 부분 고려 안 하고 제외됐다. 플랫폼 구축 예산 77억 원에서는 31억 원이 삭감됐고 개인정보보호가 강조돼야 한다는 김상희 의원 의견이 반영돼 개인보호장비 7억 원이 반영됐다."라고 설명했다.

오 과장은 "이러한 심의과정에서 국회에서 여러 의원이 우려를 표명했다. 복지부는 '플랫폼 시범사업 추진에서는 공공적 목적으로 2년간 활용하겠다. 아울러서 각계 전문가들 구성의 협의체를 신설해 정부가 추진하는 내용을 하나하나 투명하게 공개하고 심의받을 예정이다. 절차를 마련하기 위해 추진일정을 6개월 이상 딜레이하고, 정부가 가진 내용을 전부 보여드리고 상의해서 추진하겠다.'라고 했고, 국회 상임위에서 이런 부분들을 인정해줬다. 예결위에서 심의 중이지만 31억 감액은 결정 났고 7억 증액은 반영 여부가 확인 안 된 상태이다."라고 말했다.

오 과장은 "이렇게 자세하게 추진 경과를 말한 것은 새 정부 들어서면서 빅데이터와 관련해 개인정보유출 우려가 굉장히 높다는 것을 인지하고 있기 때문이다. 정부는 빠르면 다음 주 간담회 자리를 마련해 사업의 절차적 타당성 및 적절성 등에 관해 얘기하고자 한다."라고 말했다.

오 과장은 "의료계, 학계 의견도 반드시 들을 것이고, 거버넌스 협의체 공론회도 구상 중이다."라면서, "비식별화 가이드라인이라는 것은 개인정보보호법에서 모든 것을 규율 안 하므로 행정해석 차원에서 활용한 것으로 보인다. 현실 구조는 유권해석이다. 의료분쟁 발생 시 유권해석을 내린다. 유권해석 집약체로써 가이드라인을 만들었다고 생각한다."라고 말했다.

오 과장은 "빅데이터와 활용과 정보보호와 관련한 분명한 법적 근거가 있어야 할 것이다. 관련 입법인 특별법이 통과돼야 할 것이고, 빅데이터와 관련된 거버넌스를 통해 함께 법안을 구성해야 한다고 생각한다."라고 말했다.

성공회대학교 열림교양대학 김병수 교수는 "다른 국가들과는 다르게 우리나라에서는 모든 정보를 다 수집하고 있었다. 정보를 긁어모아 DB를 만들어서 활용하겠다는 계획을 정부가 가지고 있었다. 이 엄청난 정보를 사회 논의 없이 계획 세워서 추진하겠다는 것에 놀랐다."라면서, "정보 활용의 정당성을 '논문 천 편 냈으니 적당하다'는 식으로 환원시킬 수 있을지 모르겠다."라고 말했다.

김 교수는 "계획을 법률기반 없이 비식별화 가이드라인과 거의 백지인 포괄적 동의서로 진행해, 건들여야 될 법률이 현재 수십 개다. 특별법 제정은 시간이 많이 든다."라면서, "정부가 사회적 논의 전혀 없이 동의서 하나만으로 70~80만 명의 DNA를 수집했다는 게 문제이다. 영국의 경우 2000년도부터 6년 동안 어떻게 관리할 것인지 등을 사회적으로 충분히 논의했고, 2006년부터 모으기 시작했다."라고 말했다.

김 교수는 "원점을 재검토해야 한다. 이게 왜 필요하고 어떻게 설계할 것인지 등에서 시민 참여가 이뤄져야 한다. 이미 계획을 다 세워놓고 몇 명 불러서 얘기 좀 해달라고 하는 건 합의가 아니다."라고 지적했다.

한편, 종합토론에서 오상윤 과장은 "2년 시범사업을 추진하는 이유는 효용성 입증을 위해서다. 해보지도 않고 효용성을 입증할 수는 없다. 2년간 시범사업에서 충분한 성과가 나지 않는다면 시범 사업이 더 진행될 수 있다. 다만 독단적으로 추진하지 않겠다는 것이다."라고 했다.

이은우 이사는 "공공 목적으로 사용하는 데 있어서 플랫폼을 구성하지 않는 게 어떤 문제가 있는지 모르겠다. 지금도 교수들이 필요하면 표본데이터셋을 심평원에 신청해서 받을 수 있다. 그리고 플랫폼은 법제가 완비되고 나서 차분히 만들어야 할 것인데 현재의 진행은 앞뒤 맞지 않은 성급한 일이다."라고 덧붙였다.

이에 오 과장은 "새로운 기술이 들어올 때마다 그 기술을 수용할 것인지 안 할 것인지 결정이 필요하다고 생각한다. 새 기술 안 받아들이고 새 연구 안 해도 된다. 그런데 공단과 심평원, 암센터 등이 보유한 검진자료를 연계하면 전에는 하지 못한 학술연구가 가능해진다. '그런 것들을 하지 않을 것이냐'라는 거다. 정부 입장에서는 국익을 위해 새 기술을 활용하는 게 바르다고 본다."라고 답했다.

이 이사는 법 개정이 우선인데 시범사업부터 하는 거냐고 했고, 오 과장은 "법 개정도 하고 시범사업도 할 것이며, 시범사업 정도는 할 수 있다고 판단한다."라고 했다.

한양대학교 김재용 교수는 "오늘 논의에서 비식별화와 재식별화가 강조됐는데, 유럽연합 차원에서 보건의료 빅데이터는 비식별화가 기본적으로 불필요하고 쓸모없다는 것으로 결론이 이미 나 있다. 지금 비식별화 기술 문제로 이 논의를 끌고 가면 안 된다."라고 지적했다.

김 교수는 "비식별화와 식별화는 충분조건이 아니다. 문제 제기한 사람들이 이 문제를 놓침으로써 전산차원 · 법률 차원 논의의 오류를 범하고 있다. 시민 차원에서도 의도는 좋았으나 전체적 논의 프레임이 빅데이터가 존재 안 하던 시절의 개인정보 논쟁 수준이다. 15년 전 프레임에서 논의가 전개되고 있다."라고 말했다.

김경애 기자 의 전체기사 보기