개인 정보 보호: AI가 의료 임상 데이터를 익명화합니다.-일체 포함-php.cn

개인 정보 보호: AI가 의료 임상 데이터를 익명화합니다.

갑작스러운 코로나19 사태 속에서 우리는 기록적인 데이터 유출을 목격했습니다. 최근 IBM 보고서에 따르면 데이터 유출로 인한 비용도 급격히 증가하고 있습니다.

의료 분야는 의심할 여지 없이 데이터 유출로 인해 가장 큰 영향을 받는 산업 중 하나이며, 데이터 유출 사건당 평균 920만 달러의 손실이 발생합니다. 이러한 위반 시 가장 자주 노출되는 정보 유형은 민감한 고객 데이터입니다.

제약 및 의료 회사는 환자 데이터를 보호하면서 엄격한 지침에 따라 조직하고 운영해야 합니다. 따라서 모든 위반은 비용이 많이 들 수 있습니다. 예를 들어, 회사는 약물 발견 단계 전반에 걸쳐 개인 식별 정보(PII)를 수집, 처리 및 저장해야 하며, 시험이 종료되고 임상 신청서가 제출되면 게시된 결과에서 환자의 개인 정보를 보호하기 위해 주의를 기울여야 합니다.

유럽의약청(EMA) 규정 번호 0070과 캐나다 보건부가 발행한 "임상 정보의 공개" 규정은 모두 환자 신원 정보를 복원하기 위해 결과를 사용하는 위험을 최소화하기 위해 데이터 익명화에 대한 구체적인 제안을 제시했습니다. .

이 규정은 데이터 개인정보 보호를 옹호하는 것 외에도 커뮤니티가 이에 대해 작업할 수 있도록 시험 데이터를 공유하도록 요구합니다. 그러나 이는 의심할 여지 없이 기업을 딜레마에 빠뜨린다.

그렇다면 제약회사는 어떻게 데이터 개인정보 보호와 투명성 사이의 균형을 유지하면서 연구 결과를 시기적절하고 비용 효과적이며 효율적인 방식으로 게시할 수 있을까요? 제출 과정에서 AI 기술이 업무량의 97% 이상을 차지해 기업의 운영 부담을 크게 줄일 수 있다는 사실이 입증됐다.

임상 연구 결과(CSR)를 익명화하는 것이 왜 그렇게 어려운가요?

임상 제출물의 익명화를 구현하는 과정에서 기업은 주로 세 가지 핵심 과제에 직면합니다.

비정형 데이터는 처리하기 어렵습니다. 임상 시험 데이터의 상당 부분은 비정형 데이터입니다. 연구 결과에는 대량의 텍스트 데이터, 스캔한 이미지, 테이블이 포함되어 있어 처리가 비효율적입니다. 연구 보고서는 수천 페이지에 달하는 경우가 많으며, 보고서에서 중요한 정보를 식별하는 것은 건초 더미에서 바늘을 찾는 것과 같습니다. 게다가 이러한 유형의 처리를 자동화할 수 있는 표준화된 기술 교육 솔루션도 없습니다.

수동 프로세스는 번거롭고 오류가 발생하기 쉽습니다. 현재 제약 회사는 임상 연구 제출물을 익명화하기 위해 수백 명의 직원을 고용해야 합니다. 전체 팀은 25개 이상의 복잡한 단계를 거쳐야 하며 일반적인 요약 문서를 처리하는 데 최대 45일이 걸릴 수 있습니다. 그리고 수천 페이지에 달하는 자료를 수동으로 검토할 때 지루한 프로세스로 인해 오류가 발생하는 경우가 많습니다.

규제 지침의 공개 해석: 규정에 세부 제안 사항이 많지만 세부 사항은 아직 불완전합니다. 예를 들어, 캐나다 보건부(Health Canada)의 "임상 정보 공개" 규정에서는 신원 정보 복구 위험이 9% 미만이어야 한다고 요구하지만 구체적인 위험 계산 방법은 자세히 설명하지 않습니다.

아래에서는 문제 해결의 관점에서 이러한 익명화 요구를 처리할 수 있는 구체적인 솔루션을 상상해 보겠습니다.

증강 분석을 사용하여 인간 언어에 있는 민감한 정보를 식별합니다.

다음 세 가지 요소는 기술 기반 익명화 솔루션을 구축하는 데 도움이 됩니다.

자연어 처리(NLP)를 위한 AI 언어 모델

오늘날 AI는 이미 예술가처럼 창작하고 의사처럼 진단하세요. 딥 러닝 기술은 AI의 많은 발전을 촉진했으며 AI 언어 모델은 중추 중 하나입니다. 인간 언어를 처리하도록 설계된 알고리즘의 한 분야인 AI 언어 모델은 환자 이름, 주민등록번호, 우편번호와 같은 명명된 엔터티를 감지하는 데 특히 좋습니다.

이 강력한 AI 모델은 무의식적으로 공개 도메인의 모든 구석구석에 침투하여 공개 문서를 사용하여 대규모로 훈련되었습니다. 잘 알려진 Wikipedia 외에도 40,000명의 환자의 탈민감화 데이터를 포함하는 MIMIC-III v1.4 데이터베이스도 AI 모델 훈련을 위한 귀중한 리소스가 되었습니다. 물론, 모델 성능을 향상시키기 위해 도메인 전문가는 내부 임상 시험 보고서를 기반으로 모델의 후속 재교육을 수행해야 합니다.

인간-기계 루프 설계를 통한 정확도 향상

캐나다 보건부에서 제안한 9% 위험 임계값 표준은 약 95%(일반적으로 재현율 또는 정밀도로 측정)의 모델 정확도 요구 사항으로 대략 변환할 수 있습니다. AI 알고리즘은 대량의 데이터를 살펴보고 여러 훈련 주기를 실행하여 정확도를 높일 수 있습니다. 그러나 기술적 개선만으로는 임상 적용을 준비하기에 충분하지 않습니다. 이러한 모델에는 인간의 지도와 지원도 필요합니다.

임상 시험 데이터의 주관성을 해결하고 결과를 개선하기 위해 분석 솔루션은 인간과 함께 작동하도록 설계되었습니다. 이를 증강 지능이라고 합니다. 즉, 인간은 인간-기계 루프의 일부로 간주되며 데이터 라벨링 및 모델 교육을 담당할 뿐만 아니라 솔루션이 효과적인 후에 정기적인 피드백도 제공합니다. 이러한 방식으로 모델의 정확도와 출력 성능이 향상됩니다.

협업적 접근 방식으로 문제 해결

연구에 총 1,000명의 환자가 참여하고 그 중 980명은 미국 대륙 출신이고 나머지 20명은 남아메리카 출신이라고 가정해 보겠습니다. 그렇다면 이 20명의 환자의 데이터를 편집(검게 처리)하거나 익명화해야 합니까? 동일한 국가 또는 대륙 내에서 환자 표본을 선택해야 합니까? 공격자는 어떤 방법으로 이 익명화된 정보를 연령, 우편번호 및 기타 데이터와 결합하여 궁극적으로 환자의 신원을 복원할 수 있습니까?

안타깝게도 이러한 질문에 대한 표준 답변은 없습니다. 임상 제출 지침을 보다 명확하게 해석하려면 제약 제조업체, 임상 연구 기관(CRO), 기술 솔루션 제공업체 및 학계 연구자가 힘을 합쳐 협력해야 합니다.

AI 기반 익명화 방법

위의 기본 아이디어를 바탕으로 다음 단계는 이를 하나의 완전한 솔루션 프로세스로 통합하는 것입니다. 전체 익명화 솔루션의 다양한 기술은 우리가 이미 업무에 사용하고 있는 실제 방법을 기반으로 해야 합니다.

임상 연구 보고서에는 이전에 논의한 다양한 구조화되지 않은 데이터 요소뿐만 아니라 다양한 구조화된 데이터(인구통계 정보 및 주소 항목과 같은 숫자 및 신원 항목)가 포함되어 있습니다. 악의적인 해커가 이를 민감한 명명된 엔터티로 복원하는 것을 방지하려면 이를 적절하게 처리해야 합니다. 정형 데이터는 상대적으로 처리하기 쉽지만, AI 알고리즘은 비정형 데이터의 어려움을 극복해야 합니다.

따라서 비정형 데이터(일반적으로 스캔한 이미지 또는 PDF와 같은 형식)는 먼저 광학 문자 인식(OCR) 또는 컴퓨터 비전과 같은 기술을 사용하여 읽을 수 있는 형식으로 변환됩니다. 이후 AI 알고리즘을 문서에 적용해 개인식별정보를 탐지한다. 알고리즘 성능을 향상시키기 위해 사용자는 샘플 결과에 대한 피드백을 공유하여 시스템이 이러한 신뢰도가 낮은 분석을 처리하는 방법을 이해하는 데 도움을 줄 수 있습니다.

개인 정보 보호: AI가 의료 임상 데이터를 익명화합니다.

AI 기반 익명화 방법

익명화가 완료된 후에는 해당 신원 복원 위험도 평가해야 합니다. 이 작업에는 일반적으로 모집단의 배경에 대한 참조가 필요하며 다른 유사한 임상시험의 데이터와 결합됩니다. 위험 평가는 일련의 요소를 통해 검사, 언론인, 마케팅 담당자 등 세 가지 주요 위험 시나리오를 식별하는 데 중점을 둡니다. 이들 세 그룹은 각자의 필요에 따라 환자 정보를 복원하려고 노력할 것입니다.

위험 수준이 규정된 권장 사항의 9%에 도달하기 전에 익명화 프로세스는 계속해서 더 많은 비즈니스 규칙과 알고리즘 개선을 도입하여 반복적인 주기에서 효율성을 높이기 위해 노력할 것입니다. 그런 다음 다른 기술 애플리케이션과 통합하고 기계 학습 운영(ML Ops) 프로세스를 구축함으로써 전체 익명화 솔루션을 실제 워크플로우에 통합할 수 있습니다.

알고리즘보다 더 어려운 과제 - 데이터 품질

제약회사의 경우 이러한 익명화 솔루션은 제출 주기를 최대 97%까지 단축할 수 있습니다. 더 중요한 것은 이 반자동 워크플로우가 효율성을 향상시키는 동시에 사람의 참여를 보장한다는 것입니다. 하지만 AI 기반 익명화 솔루션을 구축하는 데 있어 가장 큰 과제는 무엇입니까?

사실 대부분의 데이터 과학 실무와 마찬가지로 이 작업의 가장 큰 장애물은 명명된 엔터티를 식별하는 데 사용되는 AI 알고리즘이 아니라 연구 보고서를 AI가 처리할 수 있는 고품질 데이터로 변환하는 방법입니다. 형식, 스타일, 구조가 다른 문서의 경우 해당 콘텐츠 수집 파이프라인이 손실되는 경우가 많습니다.

따라서 AI 익명화 솔루션은 새로운 문서 인코딩 형식에 적응하거나 사진/테이블 스캔에서 시작 및 끝 위치를 정확하게 감지하기 위해 지속적으로 미세 조정되어야 합니다. 분명히 이러한 작업 측면은 AI 익명화에서 가장 시간과 에너지가 많이 소모되는 영역입니다.

임상 연구에서 익명화에 대한 새로운 도전

기술의 급속한 발전과 함께 임상 연구의 익명화는 계속해서 덜 어렵고 더 효율적일까요? AI 기반 솔루션은 실제로 인상적이지만 주의가 필요한 새로운 과제도 있을 것입니다.

첫째, 소셜 미디어, 기기 사용 및 온라인 추적을 통해 수집된 소비자 데이터는 신원 복원 위험을 크게 증가시킵니다. 공격자는 이러한 공개 정보를 임상 연구 데이터와 결합하여 환자를 정확하게 식별할 수 있습니다. 더욱 걱정스러운 것은 악의적인 해커들이 AI 결과를 적용하는 데 매우 적극적이며 심지어 제약회사를 앞지를 수도 있다는 점이다.

마지막으로 국가별 관행을 수용하기 위해 규정이 계속 발전하고 있습니다. 아마도 곧 일부 국가에서는 임상 제출의 익명화에 대한 구체적인 규정을 발표하게 될 것이며, 이는 기업이 규정 준수를 유지하는 데 있어 복잡성과 비용 부담을 확실히 증가시킬 것입니다. 그러나 미래는 밝지만 가는 길은 험난하다는 속담처럼 AI 기술의 성숙한 발전은 적어도 업계 전체에 문제를 극복할 수 있는 희망을 가져다준다.

위 내용은 개인 정보 보호: AI가 의료 임상 데이터를 익명화합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!