뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다-일체 포함-php.cn

마음 읽기는 인간이 가장 바라는 초능력 중 하나라고 할 수 있고, 다른 사람이 가장 갖고 싶어하지 않는 초능력이기도 합니다. 검색 엔진에 "마음 읽기"라는 키워드를 입력하면 사람들이 이 능력에 집착하고 있음을 보여주는 수많은 관련 책, 비디오 및 튜토리얼을 찾을 수 있습니다. 하지만 그런 심리적, 행동적, 신비로운 내용은 차치하더라도 기술적인 관점에서 볼 때 인간의 뇌 신호에는 패턴이 있기 때문에 독심(뇌 신호의 패턴을 분석하는 것)이 가능합니다.

요즘 AI 기술의 발달로 패턴 분석 능력이 점점 고도화되고 마음 읽기가 현실화되고 있습니다.

얼마 전 텍사스 대학교 오스틴 캠퍼스가 Nature Neuroscience에 발표한 논문이 열띤 토론을 불러일으켰습니다. 이 논문은 뇌 신호를 비침습적으로 판독하여 의미상 일관된 연속 문장을 재구성할 수 있습니다. 현재 인기 있는 GPT 언어 모델입니다. 하지만 지금은 최신 결과를 제쳐두고 AI 마음 읽기에 관한 다른 초기 연구 결과를 살펴보고 이 주제에 대한 현재 연구 환경을 대략적으로 이해해 보겠습니다.

넓게 말하면 마음 읽기는 직접 마음 읽기와 간접적 마음 읽기의 두 가지 범주로 나눌 수 있습니다.

간접 독심이란 간접적인 특성을 통해 사람의 생각과 감정을 추론하는 것을 말합니다. 이러한 특징에는 얼굴 표정, 신체 자세, 체온, 심박수, 호흡 리듬, 말하는 속도 및 어조 등이 포함됩니다. 최근에는 빅데이터를 기반으로 한 딥러닝 기술을 통해 AI가 얼굴 표정을 통해 감정을 매우 정확하게 식별할 수 있게 되었습니다. 예를 들어 경량 오픈소스 얼굴 인식 소프트웨어 라이브러리인 Deepface는 연령, 성별, 감정, 감정 등 다양한 특성을 종합적으로 분석할 수 있습니다. 97.53%의 테스트 세트 정확도를 달성했습니다. 그러나 위의 특성을 기반으로 한 감정 분석 기술은 대개 마음 읽기로 간주되지 않으며, 결국 인간은 자신의 표현이나 기타 특성을 통해 타인의 감정을 어느 정도 추측할 수 있습니다. 직접적인 마음 읽기로 제한됩니다.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

Deepfake 라이브러리를 사용하여 얼굴 속성 분석 결과 얻기

직접 독해란 뇌 신호를 문자, 음성, 음성 등 다른 사람이 이해할 수 있는 형태로 직접 '번역'하는 것을 말합니다. 이미지. 현재 연구자들이 집중하고 있는 뇌 신호에는 침습적 뇌-컴퓨터 인터페이스, 뇌파, 신경영상의 세 가지 주요 유형이 있습니다.

침습적인 뇌-컴퓨터 인터페이스에 기반한 마음 읽기

침입적인 뇌-컴퓨터 인터페이스는 사이버펑크 작품의 표준 기능이라고 할 수 있습니다. "사이버펑크 2077"과 같은 많은 영화나 게임에서 볼 수 있습니다. 기본 아이디어는 뇌나 신경계 내부 또는 근처의 신경 세포 사이에 전달되는 전기 신호를 읽는 것입니다. 침습적으로 판독된 뇌 신호는 일반적으로 비침습적 방법보다 더 정확하고 잡음이 적습니다.

2021년 "아나스리아가 있는 마비된 사람의 음성을 해독하기 위한 신경보철물"이라는 논문에서 샌프란시스코 캘리포니아 대학의 연구원들은 언어 장애가 있는 사람들의 의사소통을 돕기 위해 AI를 사용할 것을 제안했습니다. 본 연구의 피험자는 외팔이 장애를 갖고 말이 어눌한 사람이었다. 특히, 그들의 실험에서는 고밀도 피질 EEG 전극 배열과 경피 커넥터의 조합을 사용하여 신호를 획득하기 위해 신경 임플란트를 사용했습니다. 이러한 침입적 접근 방식은 자연스럽게 더 높은 정확도로 이어집니다. 모델은 분당 최대 18단어의 속도로 디코딩할 수 있어 최대 정확도 98%, 평균 디코딩 속도 75%를 달성합니다. 또한 언어 모델을 적용하면 더 이상 단순한 문자열의 축적이 아닌 디코딩 결과의 의미 표현도 크게 향상됩니다.

이후 팀은 2022년 Nature Neuroscience 논문 "심각한 사지 및 성대 마비가 있는 개인의 언어 신경 보철물을 사용하여 일반화 가능한 철자법"에서 시스템을 더욱 개선하고 신흥 언어 모델 GPT를 통합하여 성능을 더욱 향상시켰습니다. 향상.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

직접 음성 뇌-컴퓨터 인터페이스 워크플로의 개략도

특히 워크플로는 다음과 같습니다.

a 문장 철자 시험이 시작될 때 참가자들은 단어를 조용히 발음하려고 시도하여 철자를 인식하면서 활성화했습니다.
b 작업 중에 기록된 피질 데이터에서 신경 특징(높은 감마 활동 및 저주파 신호)이 실시간으로 추출됩니다. 마이크 신호는 작업 중에 음성 신호가 없음을 나타냅니다.
c 순환 신경망(RNN)과 임계값 연산으로 구성된 음성 감지 모델의 임무는 음성 표현 시도의 신경 특성을 감지하는 것입니다. 피험자의 말 시도가 감지되면 철자 과정이 시작됩니다.
d 철자 과정에서 피험자는 2.5초마다 발생하는 문자 해독 주기를 통해 의도한 메시지의 철자를 작성합니다. 각 주기에서 피험자는 카운트다운을 볼 수 있었고 카운트다운의 끝은 시작 신호였습니다. 시작 신호를 받은 후 피험자는 원하는 문자를 나타내는 코드 단어를 조용히 말하려고 시도했습니다.
e 철자법을 쓰는 동안 모든 전극 채널에 대해 높은 감마 활동과 저주파 신호가 계산되고 2.5초 길이의 겹치지 않는 시간 창에 할당됩니다.
f RNN 기반 문자 분류 모델은 각 신경 시간 창을 처리하여 참가자가 26개의 가능한 코드 단어를 각각 조용히 말하고 싶거나 손 움직임 명령을 조작하려고 시도할 때 확률을 예측합니다.
g 참가자가 표현하고 싶은 메시지의 철자를 마친 후 오른손을 꽉 쥐어 철자 과정을 종료하고 문장을 완성합니다.
h 손 움직임 명령과 관련된 신경 시간 창은 분류 모델에 전달됩니다.
i 분류자가 참가자가 손 움직임 명령을 사용하려고 시도했음을 확인하면 신경망 기반 언어 모델(DistilGPT-2)을 사용하여 유효한 문장을 다시 채점합니다. 다시 채점한 후 가장 가능성이 높은 문장이 최종 예측으로 사용됩니다.

또 다른 이식형 뇌-컴퓨터 인터페이스 연구에서는 효율적인 필기 인식과 EEG 신호를 텍스트로 변환하는 데 성공했다고 주장합니다. 네이처(Nature) 논문 "손글씨를 통한 고성능 뇌-텍스트 통신"에서 스탠포드 대학 연구진은 척수 손상이 있는 마비된 사람들이 분당 90자의 속도로 타이핑할 수 있도록 하는 데 성공했으며 원래 온라인 정확도는 94.1%에 달했습니다. 언어 모델의 오프라인 정확도가 99%를 초과합니다!

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

손으로 쓰려고 하는 피험자의 뇌 신호를 실시간으로 디코딩합니다.

그림의 A는 디코딩 알고리즘의 개략도입니다. 첫째, 각 전극의 신경 활동이 일시적으로 결합되어 평활화됩니다. 그런 다음 RNN을 사용하여 신경 모집단 시계열을 확률적 시계열로 변환합니다. 이는 각 문자의 가능성과 새로운 문자가 시작될 확률을 설명합니다. RNN의 출력 지연(d)은 1초이므로 각 문자의 신원을 확인하기 전에 각 문자를 완전히 관찰할 수 있는 시간을 제공합니다. 마지막으로 캐릭터 확률의 임계값을 설정하여 실시간 사용을 위한 "원본 온라인 출력"을 얻습니다. (새로운 캐릭터의 확률이 시간 t에서 특정 임계값을 초과하면 시간 t+0.3초에 가장 가능성이 높은 캐릭터가 주어지고 화면에 표시됩니다.) 오프라인 회고 분석에서 연구자들은 참가자들이 가장 많이 쓸 가능성이 있는 텍스트를 해독하기 위해 문자 확률을 많은 어휘를 갖춘 언어 모델과 결합했습니다.

뇌파를 기반으로 한 마음 읽기

최근 수십 년간의 뇌 과학 연구 결과에 따르면, 뇌의 신경 세포가 신호를 전달하는 과정에 미세한 전류가 존재하여 미묘한 전자기 변동이 발생한다는 것을 알고 있습니다. 많은 수의 신경 세포가 동시에 작동할 때 이러한 전자기적 변동은 비침습적 정밀 기기를 사용하여 포착할 수 있습니다. 1875년에 과학자들은 동물의 뇌파로 알려진 흐르는 전기장 현상을 처음으로 관찰했습니다. 1925년 한스 버거(Hans Berger)는 뇌전도(EEG)를 발명하고 최초로 인간 두뇌의 전기적 활동을 기록했습니다. 그 이후로 거의 100년 동안 EEG 기술은 계속해서 발전해 왔으며, 그 정확성과 실시간 성능은 매우 높은 수준에 도달했으며 이제는 휴대용 뇌파 탐지 및 분석 장비도 구입할 수 있게 되었습니다.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

위부터 아래까지 다양한 뇌파 파형 샘플은 γ파(35Hz 이상), β파(12~35Hz), α파(8~12Hz), 세타파( 4~8Hz)와 델타파(0.5~4Hz)는 서로 다른 뇌 상태와 대략 동일합니다.

뇌파를 통해 사람의 감정과 생각을 분석하는데 있어서 가장 일반적인 방법은 P300파를 분석하는 것인데, P300파는 자극을 보고 약 300밀리초 후에 피험자의 뇌에서 생성되는 뇌파입니다. 뇌파 분석에 대한 연구는 뇌파 발견 이후 중단 없이 계속되어 왔다. 예를 들어, 2001년 이 분야의 논란이 많은 연구자인 로렌스 파웰(Lawrence Farwell)은 뇌파 반응을 평가하여 피험자가 무언가를 경험했는지 여부를 감지할 수 있는 알고리즘을 제안했습니다. , 그리고 피험자가 이를 숨기려 해도 소용없을 것입니다. 즉, 뇌파 기반 거짓말 탐지기이다.

뇌파 자체가 패턴을 가진 신호이기 때문에 신경망을 활용하여 뇌파를 분석하는 것은 자연스러운 일입니다. 아래에서는 최근 몇 년간의 연구를 통해 과학자들이 뇌파 신호를 음성, 텍스트 및 이미지로 변환하는 데 사용하는 몇 가지 방법을 소개합니다.

2019년 러시아 연구팀은 뇌파를 기반으로 이미지를 재구성할 수 있는 시각적 뇌-컴퓨터 인터페이스(BCI) 시스템을 제안했습니다. 연구 아이디어는 매우 간단합니다. 뇌파 신호에서 특징을 추출한 다음 특징 벡터를 추출한 다음 이를 매핑하여 숨겨진 공간에서 특징의 위치를 찾고 최종적으로 이미지를 디코딩하고 재구성하는 것입니다. 그 중 이미지 디코더는 1개의 완전히 연결된 입력 레이어와 5개의 디콘볼루션 모듈을 포함하는 이미지-이미지 컨벌루션 자동 인코더 모델의 일부입니다. 각 모듈은 1개의 디콘볼루션 레이어와 ReLU 활성화로 구성됩니다. 마지막 모듈은 쌍곡선 탄젠트 활성화 계층입니다.

이 모델의 또 다른 중요한 구성 요소는 EEG 기능 매퍼입니다. 이 기능은 EEG 기능 도메인의 데이터를 이미지 디코더의 숨겨진 공간 도메인으로 변환하는 것입니다. 팀은 LSTM을 모델의 반복 단위로 사용하고 추가 개선을 위해 주의 메커니즘을 사용했습니다. 손실 함수는 EEG의 특징 표현과 이미지 간의 평균 제곱 오류를 최소화하는 것입니다. 자세한 내용은 "뇌파에서 자연 이미지 재구성: 기본 피드백을 갖춘 새로운 시각적 BCI 시스템"이라는 논문을 참조하세요.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

EEG 피쳐 매퍼의 모델 구조(a)와 훈련 루틴(b)

아래는 몇 가지 예시 결과이며, 재구성된 이미지 간에 상당한 차이가 있음을 알 수 있습니다. 그리고 원본 이미지 연관.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

피험자가 본 원본 이미지(각 이미지 쌍의 왼쪽)와 피험자의 뇌파에서 재구성된 이미지(각 이미지 쌍의 오른쪽)

2022, Meta AI '비침습적 뇌 녹음에서 음성 디코딩'이라는 논문에서 연구팀은 뇌파검사(EEG) 또는 자기뇌파검사(MEG) 신호에서 음성 신호를 디코딩할 수 있는 신경망 아키텍처를 제안했습니다.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

Meta AI팀의 방법

팀에서 사용하는 방법은 실험 참가자에게 뇌 활동의 뇌파나 자기뇌파를 기록하면서 이야기나 문장을 듣게 하는 것입니다. 이를 위해 모델은 먼저 사전 훈련된 자기 지도 모델(wav2vec 2.0)을 통해 3초 음성 신호(Y)의 깊은 맥락 표현을 추출하고, 해당 정렬된 3에서 뇌 활동의 표현도 학습합니다. -두 번째 창(X)(Z). 표현 Z는 깊은 컨벌루션 네트워크로 제공됩니다. 평가하는 동안 연구자들은 모델에 나머지 문장을 제공하고 각 뇌 표현을 기반으로 각 3초 언어 세그먼트를 계산했습니다. 결과적으로 이 디코딩 프로세스는 제로샷이 가능하므로 모델은 훈련 세트에 포함되지 않은 오디오 클립을 예측할 수 있습니다.

신경영상을 기반으로 한 마음 읽기

과학자들은 기능적 자기공명영상(fMRI)이라는 기술을 사용하여 뇌 활동을 이해할 수도 있습니다. 1990년대 초반에 개발된 이 기술은 자기공명영상(MRI)을 통해 뇌의 혈류를 관찰해 뇌 활동을 감지하는 방식으로 작동한다. 이 기술은 뇌의 특정 기능 영역이 활성화되어 있는지 여부를 밝힐 수 있습니다.

특정 뇌 영역이 "더 활동적"이라고 말하는 것은 무엇을 의미하나요? fMRI는 이 활동을 어떻게 감지합니까?

뇌 영역의 뉴런이 이전보다 더 많은 전기 신호를 보내기 시작하면 뇌 영역이 더 활동적이라고 말합니다. 예를 들어, 다리를 들어올릴 때 특정 뇌 영역이 더 활성화된다면, 뇌의 해당 영역이 다리 들어올리기를 제어하는 역할을 담당한다고 생각할 수 있습니다.

fMRI는 혈액 내 산소 수치를 측정하여 이러한 전기적 활동을 감지합니다. 이를 혈중 산소 농도 의존성(bold) 반응이라고 합니다. 그것이 작동하는 방식은 뉴런이 더 활동적일 때 적혈구에서 더 많은 산소를 필요로 한다는 것입니다. 이를 위해서는 더 많은 혈액이 흐를 수 있도록 주변 혈관이 넓어집니다. 따라서 뉴런이 더 활동적일 때 산소 수치가 높아집니다. 산소가 공급된 혈액은 산소가 제거된 혈액보다 장 간섭을 덜 발생시켜 뉴런의 신호(본질적으로 물 속의 수소)가 더 오래 지속될 수 있도록 합니다. 따라서 신호가 더 오래 지속되면 fMRI는 해당 영역에 더 많은 산소가 있다는 것을 알게 되며 이는 더 활동적이라는 것을 의미합니다. 이 활동을 색상으로 구분한 후 fMRI 이미지를 얻습니다.

다음으로, GPT를 사용하여 의미론적으로 일관된 연속 문장을 재구성하는 방법에 대해 앞서 언급한 연구 "비침습적 뇌 녹음에서 연속 언어의 의미 재구성"을 살펴보겠습니다. 그들은 fMRI 기록의 의미론적 의미에 대한 피질 표현을 기반으로 지속적인 자연어를 재구성할 수 있는 비침습적 디코더를 제안합니다. 새로운 뇌 기록이 제시되었을 때 디코더는 피험자가 듣는 말의 의미, 상상의 말, 심지어 무음 비디오까지 복제하는 이해하기 쉬운 단어 시퀀스를 생성할 수 있었으며 이는 단일 언어 디코더를 사용할 수 있음을 시사합니다. 다양한 의미론적 작업 . 이 음성 디코더의 작업 흐름은 다음과 같습니다:

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

(a) 세 명의 피험자가 16시간 동안 이야기를 듣는 동안 대담한 fMRI 응답이 기록되었습니다. 시스템은 각 주제에 대해 자극으로 사용된 단어의 의미론적 특징에 의해 유발된 뇌 반응을 예측하는 인코딩 모델을 추정합니다. (b) 신선한 뇌 기록을 기반으로 언어를 재구성하기 위해 디코더는 후보 단어 시퀀스 세트를 유지합니다. 새로운 단어가 감지되면 언어 모델은 각 시퀀스에 대한 연속성을 제안하고 인코딩 모델은 각 연속성 조건에 대해 기록된 뇌 반응의 가능성을 평가하는 데 사용됩니다. 가장 가능성이 높은 연속 시퀀스가 마지막에 유지됩니다.

그 중 언어 모델은 현재 AI 연구의 핵심인 GPT 모델을 사용하고 있습니다. 연구원들은 2억 단어가 넘는 Reddit 댓글과 The Moth Radio Hour 및 Modern Love의 자서전 이야기 240개로 구성된 대규모 자료에서 사용한 GPT를 미세 조정했습니다. 모델은 최대 컨텍스트 길이가 100인 50세대 동안 학습되었습니다. 일부 실험 결과는 다음과 같습니다.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

마지막으로 CVPR 2023 논문 "뇌 너머 보기: 비전 디코딩을 위한 Sparse Masked Modeling을 사용한 조건부 확산 모델"을 살펴보겠습니다. 싱가포르국립대, 홍콩중문대, 스탠포드대 연구진은 자신들이 제안한 MinD-Vis 모델이 최초로 fMRI 기반의 뇌 활동 신호를 영상으로 디코딩하는 성과를 달성했다고 주장하며, 재구성된 영상은 세부 사항이 풍부할 뿐만 아니라 정확한 의미 및 이미지 특징(질감, 모양 등)을 포함합니다.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

MinD-Vis 워크플로 다이어그램

MinD-Vis의 두 가지 작업 단계를 살펴보겠습니다. 그림에서 볼 수 있듯이 A 단계에서는 SC-MBM(Sparse Coding Masked Brain Modeling)을 사용하여 fMRI에 대한 사전 훈련을 수행합니다. 그런 다음 fMRI를 무작위로 마스크하고 이를 대규모 임베딩으로 토큰화합니다. 연구원들은 마스크된 패치를 복구하기 위해 자동 인코더를 훈련시켰습니다. B 단계에서는 이중 조건화를 통해 잠재 확산 모델(LDM)과 통합됩니다. fMRI 잠재 공간을 두 경로를 통해 LDM 조건 공간에 투영하기 위해 잠재 차원 투영 알고리즘이 사용되었습니다. 경로 중 하나는 LDM의 교차 주의 헤드를 직접 연결하는 것입니다. 또 다른 경로는 시간적 임베딩에 fMRI 의미를 추가하는 것입니다.

논문에 나온 실험 결과로 볼 때 이 모델의 마음 읽기 능력은 정말 매우 좋습니다.

뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다

왼쪽 사진은 피험자가 본 원본 사진, 빨간색 상자는 MinD-Vis 재구성 결과, 다음 세 열은 다른 방법의 결과입니다.

결론

데이터의 양이 늘어나고 알고리즘이 발전함에 따라 인공지능은 우리가 사는 세상을 점점 더 깊이 이해하고 있으며, 이 세상의 일부로서 우리 인간도 당연히 이해의 대상이 됩니다. 인간의 발견 뇌 활동 패턴, 기계는 인간이 생각하는 것을 밑바닥부터 이해하는 능력을 얻고 있습니다. 아마도 언젠가는 AI가 진정한 마음 읽기의 달인이 될 수 있을 것이며, 심지어 인간의 꿈을 높은 충실도로 포착할 수 있는 능력을 갖게 될 수도 있습니다!

위에서는 직접 독심술에 관한 AI의 최근 연구 결과를 간략하게 소개했습니다. 실제로 일부 회사에서는 Neuralink 및 Blackrock Neurotech로 대표되는 뇌-컴퓨터 인터페이스와 같은 관련 기술의 상용화 작업에 착수했습니다. 표현할 수 없는 장애가 있는 사람들이 세상과 다시 연결될 수 있도록 돕고 심해 및 우주와 같은 위험한 지역에서 작동하는 기계를 원격으로 제어하는 등 흥미로운 응용 분야를 가질 잠재적인 미래 제품을 보유한 신경 기술 회사입니다. 동시에, 이러한 기술의 발전은 많은 사람들에게 인간 의식의 신비를 풀 수 있다는 희망을 주었습니다.

물론 이러한 유형의 기술은 많은 사람들에게 개인 정보 보호, 보안 및 윤리에 대한 우려를 불러일으켰습니다. 결국 우리는 이러한 유형의 기술이 많은 영화나 소설에서 사악한 목적으로 사용되는 것을 보아 왔습니다. 오늘날 이러한 기술의 추가 개발은 불가피하므로 이러한 기술이 인간의 이익과 어떻게 일치하는지 확인하는 것은 모든 관련자와 정책 입안자의 고민과 논의가 필요한 중요한 문제가 되었습니다.

위 내용은 뇌-컴퓨터 인터페이스, 뇌파 및 fMRI, AI가 마음 읽기를 마스터합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!