178 pages, 128 cases, comprehensive evaluation of GPT-4V in the medical field, still far from clinical application and practical decision-making-AI-php.cn

상하이 교통대학교 & 상하이 AI 연구소는 178페이지 분량의 GPT-4V 의료 사례 리뷰를 공개하여 의료 분야에서 GPT-4V의 시각적 성능을 최초로 공개했습니다. 대규모 기본 모델을 중심으로 인공지능 개발은 최근 큰 진전을 이루었으며, 특히 OpenAI의 GPT-4의 강력한 질문과 답변, 지식 능력은 AI 분야의 유레카 순간을 빛나게 하여 광범위한 대중을 불러일으켰습니다. 우려. GPT-4V(ision)는 OpenAI의 최신 다중 모드 기본 모델입니다. GPT-4와 비교하여 이미지 및 음성 입력 기능이 추가되었습니다. 본 연구는 다중모달 의료진단 분야에서 GPT-4V(ision)의 성능을 사례 분석을 통해 평가하는 것을 목표로 한다. 총 128건(영상의학 평가 92건, 병리학 평가 20건, 위치결정 16건)을 전시하고 분석했다. 사례) 총 277개의 이미지가 포함된 GPT-4V Q&A 예시(참고: 이 기사에는 사례 표시가 포함되어 있지 않습니다. 구체적인 사례 표시 및 분석은 원본 문서를 참조하세요.)

178 pages, 128 cases, comprehensive evaluation of GPT-4V in the medical field, still far from clinical application and practical decision-making

GPT-4V 의료영상 평가

ArXiv 링크: https://arxiv.org/abs/2310.09909

바이두 클라우드 다운로드 주소: https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2

Google 드라이브 다운로드 주소: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

평가 기능:

이미지 형식 및 영상 위치 식별: X선, CT, MRI 식별 공명 영상, 초음파 및 병리학 영상, 영상 위치 파악.
해부학적 구조 위치 파악: 이미지에서 특정 해부학적 구조를 찾아냅니다.
비정상 감지 및 위치 파악: 종양, 골절 또는 감염과 같은 이상을 감지하고 찾습니다.
다중 영상 종합 진단: 진단을 위해 다양한 영상 방식이나 뷰의 정보를 결합합니다.
의료 보고서 작성: 비정상적인 상태 및 이와 관련된 정상적인 결과를 설명합니다.
환자 병력 통합: 영상 해석 시 환자의 기본 정보와 병력을 고려합니다.
다양한 상호작용에서 일관성과 기억력: 데이터 인식의 연속성을 유지합니다.

평가 시스템:

중추신경계
머리와 목
심장
가슴
혈액
간 및 담낭
항문직장
비뇨기과
산부인과
산부인과
유방부
근골격계 진료과
척추과
혈관과
종양학과
외상학과
소아과

영상 양식:

X-ray
컴퓨터 단층 촬영(CT)
자기 공명 MRI(영상촬영)
긍정적 전자 방출 단층 촬영(PET)
디지털 차감 혈관 조영술(DSA)
유방 조영술
초음파
병리학
테스트 케이스 선택

방사선학 Q&A 원본 논문은 Radiopaedia에서 제공되며, 이미지는 웹 페이지에서 직접 다운로드됩니다. , 포지셔닝 사례는 여러 의료 공공 세분화 데이터 세트에서 가져오고 병리학 이미지는 PathologyOutlines에서 가져옵니다. 사례를 선택할 때 저자는 다음 측면을 종합적으로 고려했습니다.

출판 날짜: GPT-4V의 교육 데이터가 매우 클 가능성이 매우 높다는 점을 고려하여 선택한 테스트 사례가 교육 세트에 나타나는 것을 피하기 위해 저자는 2023년에 발표된 최신 사례만 선택했습니다.
주석의 신뢰성: 의학적 진단 자체는 논란이 많고 모호합니다. Radiopaedia에서 제공하는 사례 완료율을 기준으로 저자는 주석이나 진단의 신뢰성을 보장하기 위해 완료율이 90% 이상인 사례를 선택하려고 합니다.
이미지 양식 다양성: 사례를 선택할 때 저자는 여러 이미지 양식에 대한 GPT-4V의 반응을 보여주기 위해 최선을 다했습니다.

이미지 처리 중에 작성자는 입력 이미지의 품질을 보장하기 위해 다음과 같은 정규화도 수행했습니다.

다중 이미지 선택: GPT-4V에서 지원하는 최대 이미지 입력 제한은 4개이지만, 관련 이미지가 4개 이상인 경우도 있다는 점을 고려하여, 우선 저자는 사례 선택 시 이러한 상황을 피하려고 노력하고, 두 번째로 , 불가피한 경우, 그러한 사례가 발생하면 저자는 Radiopaedia에서 제공하는 사례 주석을 기반으로 가장 관련성이 높은 이미지를 선택합니다.
섹션 선택: 대량의 방사선 영상 데이터가 3D(연속 다중 프레임 2차원 이미지) 형식이므로 GPT-4V에 직접 입력할 수 없으므로 완전한 3D를 대체하려면 가장 대표적인 섹션을 선택해야 합니다. 이미지를 생성하고 GPT-4V에 입력됩니다. Radiopaedia의 사례 업로드 사양에 따르면 방사선 전문의는 3D 이미지를 업로드할 때 가장 관련성이 높은 섹션을 선택하도록 요청받습니다. 저자는 이를 활용하여 3D 데이터 대신 입력을 위해 Radiopaedia에서 권장하는 축 단면을 선택했습니다.
이미지 표준화: 의료 이미지의 표준화된 디자인, 창 너비 및 창 수준 선택 저자는 Radiopaedio 케이스를 사용하여 방사선 전문의가 선택한 창 너비와 창 수준을 업로드하여 이미지를 입력했습니다. 분할된 데이터 세트의 경우 원본 논문은 [-300,300]의 창을 사용하고 0-1의 사례 수준 정규화를 수행합니다.

원본 논문의 테스트는 모두 웹 버전의 GPT-4V를 사용했습니다. 1차 Q&A에서는 사용자가 이미지를 입력한 후 여러 차례의 Q&A를 시작합니다. 상황의 상호 영향을 피하기 위해 새로운 사례마다 Q&A를 위한 새로운 Q&A 창이 생성됩니다.

178 pages, 128 cases, comprehensive evaluation of GPT-4V in the medical field, still far from clinical application and practical decision-making

GPT-4V Q&A 사례, 그림의 빨간색은 오류, 노란색은 불확실성, 녹색은 정확함을 나타냅니다. 색상 표시가 없는 문장은 독자가 스스로 정확성을 판단해야 합니다. . 더 많은 사례 사례 분석은 원본 논문을 참조하세요
병리학적 평가에서는 모든 이미지가 두 차례의 대화를 거칩니다.

첫 번째 라운드에서는 입력 이미지만을 기반으로 보고서를 생성할 수 있는지 묻습니다.
이 라운드의 목적은 GPT-4V가 관련 의학적 힌트를 제공하지 않고도 이미지 양식과 조직 출처를 식별할 수 있는지 평가하는 것입니다.
두 번째 라운드에서는 사용자가 올바른 조직 소스를 제공하고 GPT-4V가 병리학적 이미지와 조직 소스 정보를 기반으로 진단을 내릴 수 있는지 여부를 묻습니다. GPT-4V가 보고서를 수정하여 명확한 결과를 제공할 수 있기를 바랍니다. 진단 결과.
병리학적 이미지 사례 표시

위치 평가

타겟 인식: 이미지에 타겟이 있는지 확인합니다.
경계 상자 생성: 왼쪽 위 모서리가 (0, 0)이고 오른쪽 아래 모서리가 (w, h)인 대상에 대한 경계 상자 좌표를 생성합니다.
IOU 계산: 예측된 경계 상자와 실제 경계 상자 사이의 IOU(Intersection-over-Union 비율)를 계산합니다.
성능 제한: IOU 점수가 가장 높은 예측 경계 상자를 선택합니다.
평균 성능: 평균 경계 상자의 IOU 점수를 계산합니다.
평가의 한계
물론 원저자는 평가에서 몇 가지 단점과 한계도 언급했습니다.
정량적 평가보다는 정성적 평가만 가능
GPT-4V는 온라인 웹 인터페이스만 제공하기 때문에 테스트 사례는 수동으로만 업로드할 수 있으므로 결과적으로 원래 평가 보고서는 확장성이 제한되어 있어 정성적 평가만 제공할 수 있었습니다.
샘플 편향
선정된 샘플은 모두 온라인 홈페이지에서 가져온 것이므로 일일 외래 진료실의 데이터 분포를 반영하지 않을 수 있습니다. 특히 평가된 사례의 대부분은 이상값이므로 평가에 잠재적인 편향이 발생할 수 있습니다.
주석 또는 참조 답변이 불완전합니다.
Radiopaedia 또는 PathologyOutlines 웹사이트에서 얻은 참조 설명은 대부분 구조가 없고 표준화된 방사선학/병리학 보고 형식이 없습니다. 특히 이러한 보고서의 대부분은 사례에 대한 포괄적인 설명을 제공하기보다는 주로 이상 현상을 설명하는 데 중점을 두며 완벽한 응답에 대한 직접적인 비교 역할을 하지 않습니다.
2D 슬라이스 입력만
실제 임상 환경에서 CT, MRI 스캔을 포함한 방사선 영상은 일반적으로 3D DICOM 형식입니다. 그러나 GPT-4V는 최대 4개의 2D 이미지 입력만 지원할 수 있으므로 원본 텍스트는 평가 중에 2D 키 조각 또는 작은 조각(병리학용)만 입력할 수 있습니다.
결론적으로, 평가가 완전하지는 않더라도 원저자는 이 분석이 여전히 연구자와 의료 전문가에게 귀중한 통찰력을 제공할 수 있다고 믿습니다. 이는 다중 모드 기본 모델의 현재 기능을 보여주고 기본 모델 구축에 대한 향후 작업에 영감을 줄 수 있습니다. 의학의.
중요한 관찰
원본 평가 보고서는 평가 사례를 기반으로 관찰된 GPT-4V의 여러 성능 특성을 요약합니다.
방사선 사례 섹션
저자는 92개의 방사선 평가 사례와 20개의 위치 지정 사례를 기반으로 다음과 같은 관찰을 수행했습니다.
GPT-4V 의료 영상의 양식과 영상 위치를 식별할 수 있습니다
GPT4-V는 대부분의 영상 콘텐츠에 대한 모달 인식, 영상 부분 결정, 영상 평면 카테고리 결정과 같은 작업에 대해 우수한 처리 능력을 보여주었습니다. 예를 들어 저자들은 GPT-4V가 MRI, CT, .
GPT-4V는 정확한 진단이 거의 불가능합니다.
저자는 다음과 같은 사실을 발견했습니다. 한편으로는 OpenAI가 GPT-4V의 직접 진단을 엄격하게 제한하는 보안 메커니즘을 설정한 것으로 보입니다. 매우 명백한 진단 사례인 GPT-4V는 분석 능력이 부족하고 가능한 질병을 일련의 목록으로 나열하는 데 국한되어 있지만 더 정확한 진단을 내릴 수는 없습니다.
GPT-4V는 구조화된 보고서를 생성할 수 있지만 대부분의 내용이 올바르지 않습니다.
GPT-4V는 대부분의 경우 더 많은 표준 보고서를 생성할 수 있지만 저자는 더 유연한 콘텐츠가 포함된 필기 보고서보다 더 통합적이라고 생각합니다. 다중 모드 또는 다중 프레임 이미지를 대상으로 할 때 포괄적인 기능이 부족합니다. 따라서 대부분의 내용은 참고값이 적고 정확성이 부족합니다.
GPT-4V는 의료 영상의 마크와 텍스트 주석을 인식할 수 있지만, 이미지에 나타나는 의미를 이해할 수는 없습니다.
GPT-4V는 강력한 텍스트 인식, 마크 인식 및 기타 기능을 보여 주며 이러한 마크를 사용하려고 합니다. 분석을 위해. 그러나 저자는 GPT-4V가 항상 텍스트와 태그를 과도하게 사용하고 이미지 자체가 2차 참조 개체가 된다는 점과 둘째, 견고성이 떨어지며 이미지의 의료 정보를 잘못 해석하는 경우가 많다고 생각합니다.
GPT-4V는 영상에서 이식된 의료기기와 그 위치를 식별할 수 있습니다.
대부분의 경우 GPT4-V는 인체에 이식된 의료기기를 정확하게 식별하고 위치를 비교적 정확하게 찾을 수 있습니다. 그리고 저자들은 좀 더 어려운 경우에도 진단 오류가 발생할 수 있음을 발견했지만 의료기기는 올바르게 식별되었다고 판단했습니다.
GPT-4V는 여러 이미지 입력에 직면할 때 분석 장애에 직면하게 됩니다.
저자는 동일한 양식에서 서로 다른 관점의 이미지를 직면할 때 GPT-4V가 단일 이미지를 입력하는 것보다 더 나은 분석 기능을 보인다는 것을 발견했습니다. 서로 다른 양식의 이미지가 혼합되어 입력되는 경우 GPT-4V는 각 뷰에 대해 별도의 분석을 수행하는 경향이 있으며, 서로 다른 양식의 정보를 통합하는 합리적인 분석을 도출하기가 더 어렵습니다.
GPT-4V의 예측은 환자의 병력에 따라 쉽게 유도됩니다
저자는 환자의 병력 제공 여부가 GPT-4V의 답변에 더 큰 영향을 미친다는 사실을 발견했습니다. GPT-4V는 질병 이력이 제공되면 이를 핵심 포인트로 사용하여 이미지의 잠재적인 이상을 추론하는 경우가 많으며, 질병 이력이 제공되지 않는 경우 GPT-4V는 이미지를 핵심 포인트로 처리할 가능성이 높습니다. 정상적인 사례가 분석됩니다.
GPT-4V는 의료 영상에서 해부학적 구조와 이상을 찾을 수 없습니다.
저자는 GPT-4V의 열악한 포지셔닝 효과가 주로 다음에서 나타난다고 믿습니다. 첫째, GPT-4V는 포지셔닝 과정에서 항상 실제 경계에서 멀리 떨어진 영상을 얻습니다. 둘째, 동일한 이미지에 대한 여러 라운드의 반복 예측에서 상당한 무작위성을 보여줍니다. 셋째, GPT-4V는 명백한 편향을 보여줍니다. 예를 들어 뇌 MRI 이미지에서는 소뇌가 아래쪽에 위치해야 합니다.
GPT-4V는 여러 라운드의 사용자 상호 작용을 기반으로 기존 답변을 변경할 수 있습니다.
GPT-4V는 일련의 상호 작용에 걸쳐 응답이 정확하도록 수정할 수 있습니다.For example, in the example shown in the article, the authors entered MRI images of endometriosis. GPT-4V initially misclassified a pelvic MRI as a knee MRI, resulting in an incorrect output. But the user corrected it through multiple rounds of interaction with GPT-4V and ultimately made an accurate diagnosis.
GPT-4V has a serious problem with hallucinations, especially the tendency to describe patients as normal even if the abnormal signals are extremely obvious.
GPT-4V always generates reports that appear to be very complete and detailed in structure, but the content is incorrect. Many times it will still consider the patient to be normal even if the abnormal areas in the image are obvious.
GPT-4V is not stable enough for medical question answering
GPT-4V has a huge performance difference between common images and rare images, and also shows obvious performance differences in different body systems. In addition, analysis of the same medical image may produce inconsistent results due to changing prompts. For example, GPT-4V initially judges a given image as abnormal under the prompt "What is the diagnosis for this brain CT?" But then it generated a report considering the same image as normal. This inconsistency highlights that the performance of GPT-4V in clinical diagnosis may be unstable and unreliable.
GPT-4V has strict security restrictions on the medical field
The authors found that GPT-4V has established safety protection measures to prevent potential misuse in Q&A in the medical field to ensure that users can use it safely. For example, when GPT-4V is asked to make a diagnosis, "Please provide the diagnosis for this chest X-ray.", it may refuse to give an answer, or emphasize "I am not a substitute for professional medical advice." In most cases, GPT-4V will prefer to use phrases containing "appears to be" or "could be" to express uncertainty.
Pathology Case Section
In addition, in order to explore the capabilities of GPT-4V in report generation and medical diagnosis of pathological images, the authors conducted image block level testing on 20 pathological images of malignant tumors from different tissues, and concluded as follows Conclusion:
GPT-4V is capable of accurate modality recognition
In all test cases, GPT-4V can correctly identify the modality of all pathology images (H&E stained histopathology images).
GPT-4V is able to generate structured reports
Given a pathology image without any medical hints, GPT-4V can generate a structured and detailed report describing the image features. Seven of the 20 cases were able to clearly list their observations, even correctly, using terms such as “tissue structure,” “cell characteristics,” “stroma,” “glandular structure,” “nucleus,” etc.地

The above is the detailed content of 178 pages, 128 cases, comprehensive evaluation of GPT-4V in the medical field, still far from clinical application and practical decision-making. For more information, please follow other related articles on the PHP Chinese website!