GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다-일체 포함-php.cn

"지능형 이미지 및 텍스트 처리 기술과 멀티시나리오 응용 기술"을 중심으로 많은 학계와 업계 연구진이 심도 있는 논의를 진행했습니다.

"너무 복잡해요!"

GPT-4와 Microsoft Microsoft 365 Copilot After를 경험한 후 계속되는 폭격으로 인해 많은 사람들이 이런 느낌을 갖고 있다고 생각합니다.

GPT-3.5와 비교하여 GPT-4는 여러 측면에서 상당한 개선을 이루었습니다. 예를 들어 모의 변호사 시험에서는 원래의 상호 10%에서 긍정적인 10%로 발전했습니다. 물론 일반 사람들은 이러한 전문 시험에 대해 전혀 알지 못할 수도 있습니다. 하지만 사진을 보여드리면 개선이 얼마나 무서운지 아실 겁니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

출처: Tang Jie, 칭화대학교 컴퓨터과학과 교수, 웨이보. 링크: https://m.weibo.cn/detail/4880331053992765

GPT-4는 그림과 텍스트를 기반으로 문제를 단계별로 해결하는 데 필요한 물리학 문제입니다. 업그레이드 전 ChatGPT로) 종속 모델)에는 기능이 없습니다. 한편, GPT-3.5는 텍스트를 이해하도록 훈련을 받았을 뿐, 질문의 그림을 이해할 수는 없습니다. 반면, GPT-3.5의 문제 해결 능력도 매우 약해 같은 우리에 갇힌 닭과 토끼가 함께 있으면 곤란할 정도다. 하지만 이번에는 두 가지 문제가 모두 아름답게 해결된 것 같습니다.

모두가 이것이 큰 일이라고 생각했을 때 Microsoft는 또 다른 블록버스터인 GPT-4를 출시했습니다. 이러한 기능은 Microsoft 365 Copilot이라는 새로운 응용 프로그램에 통합되었습니다. 강력한 이미지 및 텍스트 처리 기능을 갖춘 Microsoft 365 Copilot은 다양한 문서 작성을 도울 수 있을 뿐만 아니라 문서를 쉽게 PPT로 변환하고 Excel 데이터를 자동으로 차트로 요약합니다...

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

기술 데뷔부터 제품 출시까지, OpenAI와 Microsoft는 대중에게 응답할 수 있는 시간을 이틀밖에 주지 않았습니다. 하룻밤 사이에 새로운 생산성 혁명이 도래했습니다.

변화가 너무 빨리 일어나기 때문에 학계와 산업계는 다소 혼란스러운 'FOMO(Fear of Missing Out)' 상태에 빠져 있습니다. 현재 모든 사람들은 답을 알고 싶어합니다. 이 물결에서 우리는 무엇을 할 수 있습니까? 어떤 기회가 있나요? Microsoft가 출시한 데모에서 지능형 이미지 및 텍스트 처리라는 분명한 돌파구를 찾을 수 있습니다.

실제 시나리오에서는 구조화되지 않은 데이터를 차트로 정리하고, 차트를 기반으로 보고서를 작성하고, 방대한 그래픽 정보에서 유용한 정보를 추출하는 등 다양한 산업의 많은 작업이 그래픽 및 텍스트 처리와 관련되어 있습니다. 이 때문에 이 혁명의 영향은 많은 사람들이 상상하는 것보다 훨씬 더 심오할 수 있습니다. OpenAI와 Wharton School의 최근 블록버스터 논문은 이러한 영향을 예측합니다. 미국 인력의 약 80%가 GPT 도입으로 인해 업무 작업의 최소 10%가 영향을 받을 수 있으며, 약 19%의 근로자가 최소한 작업의 50%가 영향을 받습니다. 작업의 상당 부분이 그래픽 및 텍스트 지능과 관련되어 있음을 예상할 수 있습니다.

이러한 진입점에서 어떤 연구 노력이나 엔지니어링 노력을 탐구할 가치가 있나요? 최근 중국 이미지 그래픽 협회(CSIG)가 주최하고 Hehe Information과 CSIG 문서 이미지 분석 및 인식 전문위원회가 공동 주최한 CSIG 기업 투어 행사에서 학계와 업계의 많은 연구자들이 "이미지의 지능적인 처리 및 인식"에 중점을 두었습니다. 텍스트' 기술 및 다중 시나리오 응용 기술 '은 이미지 및 텍스트 지능형 처리 분야에 관심이 있는 연구자 및 실무자에게 영감을 줄 수 있는 심도 있는 논의를 진행했습니다.

그래픽 및 텍스트 처리는 기본 비전에서 시작됩니다

앞서 언급했듯이 GPT-4의 그래픽 및 텍스트 처리 기능은 매우 충격적입니다. 위의 물리학 질문 외에도 OpenAI의 기술 보고서는 GPT-4가 종이 그림을 읽도록 하는 것과 같은 다른 예도 인용했습니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

그러나 이를 위해서는 여전히 수행해야 할 기본 작업이 많이 남아 있을 수 있습니다. 기술이 널리 구현될 수 있도록 하는 기본 비전도 그 중 하나입니다.

기본 비전의 특징은 매우 분명합니다. 입력은 이미지이고 출력도 이미지입니다. 이미지 전처리, 필터링, 복원 및 향상이 모두 이 범주에 속합니다.

"시력의 기본 이론과 방법은 휴대폰, 의료 영상 분석, 보안 모니터링 등 다양한 분야에서 널리 사용되고 있습니다. 이미지와 영상 콘텐츠의 품질을 중시하는 기업과 기관은 시력에 대한 연구에 주목해야 합니다. 기본 비전의 방향. 기본 비전이 제대로 이루어지지 않으면 많은 고급 비전 시스템(예: 감지, 인식, 이해)을 실제로 구현할 수 없습니다." Hehe 이미지 알고리즘 R&D 이사 Guo Fengjun CSIG Enterprise Tour 이벤트 중에 언급된 정보입니다.

이 문장을 어떻게 이해하나요? 몇 가지 예를 살펴보겠습니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

OpenAI 및 Microsoft 데모에서 보여준 이상적인 상황과 달리 실제 이미지와 텍스트는 항상 변형, 그림자, 모아레 패턴과 같은 어려운 형태로 존재하므로 후속 인식과 이해가 더욱 어려워집니다. Guo Fengjun 팀의 목표는 초기 단계에서 이러한 문제를 해결하는 것입니다.

이를 위해 이 작업을 관심 영역(RoI) 추출, 변형 보정, 이미지 복원(예: 그림자 제거, 모아레 패턴 등), 품질 향상(예: 선명도 향상, 선명도 향상) 등 여러 모듈로 나누었습니다.

이러한 기술을 결합하여 매우 흥미로운 응용 프로그램을 만들 수 있습니다. 수년간의 연구 끝에 이 모듈은 상당히 좋은 결과를 얻었으며 관련 기술은 회사의 지능형 텍스트 인식 제품인 "스캐너"에 적용되었습니다.

단어부터 표, 장까지 그림과 텍스트를 단계별로 읽어보세요

이미지가 처리된 후 다음 단계는 그림과 텍스트의 내용을 식별하는 것입니다. 이 작업 역시 매우 세밀한 작업이며 "단어" 단위로 수행될 수도 있습니다.

많은 실제 시나리오에서 문자가 반드시 표준화된 인쇄 형식으로 표시되지 않을 수 있으므로 문자 인식에 어려움이 따릅니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

교육 현장을 예로 들어보겠습니다. 당신이 교사라고 가정하면 AI가 모든 학생들의 숙제를 바로잡는 데 직접 도움을 주는 동시에 학생들의 지식 각 부분에 대한 숙달도를 요약하기를 원할 것입니다. 잘못된 질문, 오타 및 수정 제안도 제공하는 것이 가장 좋습니다. . Du Jun, 중국 과학 기술 대학 음성 및 언어 정보 처리를 위한 국립 공학 연구소 부교수가 이 분야에서 연구하고 있습니다.

구체적으로 부수를 기반으로 한 한자 인식, 생성 및 평가 시스템을 만들었습니다. 왜냐하면 전체 문자 모델링에 비해 부수 조합이 훨씬 적기 때문입니다. 그 중 인식과 생성이 공동으로 최적화되는데, 이는 학생들이 학습할 때 읽고 쓰는 능력과 쓰기 능력이 상호 강화되는 과정과 비슷합니다. 예전에는 대부분의 평가 작업이 문법 수준에 중점을 두었지만, 두준 팀은 이미지에서 바로 오타를 찾아내고, 오류를 자세히 설명할 수 있는 방식을 고안했습니다. 이 방법은 지능형 표시와 같은 시나리오에서 매우 유용합니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

텍스트 외에도 테이블의 식별과 처리는 실제로 큰 어려움입니다. 왜냐하면 내부 내용을 식별해야 할 뿐만 아니라 이러한 내용 간의 구조적 관계를 명확히 해야 하고, 일부 테이블에는 심지어 테이블이 존재하지 않을 수도 있기 때문입니다. 와이어프레임. 이를 위해 Du Jun 팀은 "첫 번째 세그먼트 후 병합" 방법을 설계했습니다. 즉, 먼저 테이블 이미지를 일련의 기본 그리드로 분할한 다음 병합을 통해 추가 수정을 수행합니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

두준팀의 '첫 번째 분할 후 병합' 형태 인식 방식.

물론 이 모든 작업은 궁극적으로 장 수준에서 문서를 구조화하고 이해하는 역할을 하게 됩니다. 실제 환경에서 모델이 직면하는 대부분의 문서는 한 페이지 이상(예: 종이)입니다. 이러한 방향에서 Du Jun 팀의 작업은 교차 페이지 문서 요소의 분류 및 교차 페이지 문서 구조 복원에 중점을 두고 있습니다. 그러나 이러한 방법은 다중 레이아웃 시나리오에서 여전히 제한 사항이 있습니다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

대형 모델, 다중 양식, 월드 모델... 미래는 어디에 있습니까?

챕터 수준의 이미지와 텍스트 처리 및 이해에 관해서는 실제로 GPT-4와 멀지 않습니다. Du Jun은 행사에서 "다중 모드 GPT-4가 나온 후 이러한 측면에서 뭔가 할 수 있는지에 대해서도 생각하고 있었습니다"라고 말했습니다. 이미지 및 텍스트 처리 분야의 많은 연구자나 실무자들이 이런 생각을 가지고 있다고 생각합니다.

GPT 모델 시리즈의 목표는 항상 다양성을 향상하고 궁극적으로 일반 인공 지능(AGI)을 달성하기 위해 노력하는 것이었습니다. 이번에 GPT-4가 시연한 강력한 이미지와 텍스트 이해 능력은 이 일반 능력의 중요한 부분이다. 유사한 기능을 갖춘 모델을 만들기 위해 OpenAI는 몇 가지 참고 자료를 제공했지만 많은 미스터리와 해결되지 않은 문제도 남겼습니다.

우선, GPT-4의 성공은 대형 모델+다중 모드 접근이 가능함을 보여줍니다. 그러나 대형 모델에서 어떤 문제를 연구해야 하는지, 다중 모드 모델의 과장된 컴퓨팅 성능 요구 사항을 해결하는 방법은 모두 연구자가 직면한 과제입니다.

첫 번째 질문에는 푸단대학교 컴퓨터과학과 Qiu Xipeng 교수님이 참고할 만한 몇 가지 지침을 주셨습니다. 이전에 OpenAI가 공개한 일부 정보에 따르면 ChatGPT는 상황 내 학습, 사고 사슬, 지침 학습 등 여러 핵심 기술과 분리될 수 없다는 것을 알고 있습니다. Qiu Xipeng은 공유에서 이러한 능력이 어디서 오는지, 어떻게 지속적으로 개선할 수 있는지, 기존 학습 패러다임을 변화시키기 위해 이를 어떻게 사용할지 등 이러한 방향에서 논의해야 할 문제가 여전히 많다고 지적했습니다. 또한, 대규모 대화형 언어 모델을 구축할 때 고려해야 할 역량과 이러한 모델을 현실 세계에 맞추기 위해 고려할 수 있는 연구 방향도 공유했다.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다

두 번째 질문에는 샤먼대학교의 Nanqiang 특훈교수 Ji Rongrong이 중요한 아이디어를 제시해 주셨습니다. 그는 언어와 시각 사이에는 자연스러운 연결이 있으며 둘 사이의 공동 학습이 일반적인 추세라고 믿습니다. 그러나 이러한 물결 앞에서는 어떤 대학이나 연구실의 힘도 미미하다. 그래서 지금은 자신이 일하고 있는 샤먼대학교를 시작으로 연구원들에게 컴퓨팅 성능을 통합하고 네트워크를 형성하여 대규모 다중 모드 모델을 구축하도록 설득하려고 노력하고 있습니다. 실제로 얼마 전 한 행사에서 과학을 위한 AI에 초점을 맞춘 학자 E Weinan도 비슷한 견해를 표명하면서 각계각층이 "원래의 혁신 방향으로 자원을 공동으로 모으길" 희망했습니다.

그런데 GPT-4가 택한 길은 과연 일반 인공지능으로 이어질까? 일부 연구자들은 이에 대해 회의적이며 Turing Award 수상자 Yann LeCun도 그중 하나입니다. 그는 현재의 대형 모델이 데이터와 컴퓨팅 성능에 대한 수요가 엄청나지만 학습 효율성이 매우 낮다고 믿습니다(예: 자율주행차). 따라서 그는 (현실 세계에 대한 시뮬레이션을 실행하는 것으로 이해될 수 있는) 세계 모델을 학습하는 것이 AGI를 달성하는 열쇠가 될 수 있다고 믿고 "세계 모델"(세계가 어떻게 작동하는지에 대한 내부 모델)이라는 이론을 만들었습니다. 행사에서 상해교통대학교 양샤오강 교수는 이 방향에 대한 자신의 연구를 공유했습니다. 특히 그의 팀은 시각적 직관의 세계 모델(시각적 직관에는 많은 양의 정보가 있기 때문에)에 중점을 두고 비전, 직관, 시간과 공간에 대한 인식을 모델링하려고 노력했습니다. 마지막으로 그는 이러한 유형의 연구에서 수학, 물리학, 정보 인지 및 컴퓨터 분야의 교차점의 중요성도 강조했습니다.

"애벌레는 음식에서 영양분을 추출한 다음 나비로 변합니다. 사람들은 이해를 위해 수십억 개의 단서를 추출했습니다. GPT-4는 인간 나비입니다." 딥 러닝 신부 Geoffrey Hinton이 트윗했습니다. 이것.

GPT-4가 그림과 텍스트를 읽는 법을 배우면 생산성 혁명은 멈출 수 없습니다