강화학습이 과대평가되었나요?-일체 포함-php.cn

강화학습이 과대평가되었나요?

PHPz

풀어 주다： 2023-04-13 09:31:02

앞으로

1129명이 탐색했습니다.

번역가 | Li Rui

리뷰어 | Sun Shujuan

알았어친구들과 체스를 준비하고 있다고 상상해 보세요. 하지만 그는 인간 이 아닙니다. 게임의 규칙을 이해하지 못합니다. 그러나 이 앱은 게임에서 이기는 이라는 하나의 목표 를 달성하기 위해 노력한다는 것을 이해합니다.

컴퓨터 프로그램은 규칙을 모르기 때문에 체스를 시작하는 동작

은 무작위입니다. 이러한 트릭 중 일부는 전혀 의미가 없으며 쉽게 승리할 수 있습니다. 여기서 당신이 이 친구와 체스를 너무 좋아해서 게임에 중독되었다고 가정해 보겠습니다.

그러나

컴퓨터 프로그램은 결국 승리할 것입니다. 왜냐하면 프로그램은 점차적으로 당신count을 물리칠 수 있는 방법과 요령을 배울 것이기 때문입니다. 이 가상의 시나리오는 믿기지 않는 것처럼 보일 수 있지만 강화 학습(기계 학습 분야)이 일반적으로 작동하는 방식에 대한 기본적인 이해를 제공해야 합니다.

강화 학습은 얼마나 스마트합니까?

강화학습이 과대평가되었나요?

인간의 지능은 지식 습득, 지적 능력 확장에 대한 욕구, 직관적 사고 등 다양한 특성을 포함합니다. 체스 챔피언 가리 카스파로프(Garry Kasparov)가 딥 블루(Deep Blue)라는 IBM 컴퓨터에 패하자 인간의 지능은 의심스러워졌습니다. 로봇이 인류를 지배하는 미래를 묘사한 종말론적 시나리오가 대중의 관심을 끌었을 뿐만 아니라 주류 의식도 장악했습니다.

하지만

, "딥 블루"

는 평범한 상대가 아닙니다. 이 계산 프로그램 으로 체스를 두는 것은 천년의 노인 남자, 쉬지 않고 체스를 쳐온 모두와 함께 체스를 하는 것과 같습니다. 그의 인생 . 하지만 "딥 블루"는 악기 연주, 책 쓰기, 과학 실험, 아이 키우기, 자동차 수리와 같은 다른 지적 활동이 아닌 특정 게임을 잘합니다. 이

은 확실히 "Deep Blue"

의 업적 을 과소평가 하려는 것이 아닙니다. 과는 반대로 컴퓨터가 지적 능력에서 인간을 능가할 수 있다는 생각은 강화 학습 작동 에 대한 분석부터 시작하여 신중한 조사가 필요합니다. 강화 학습의 작동 원리

에서

언급했듯이 강화 학습은 기계 학습의 하위 집합으로, 지능형 에이전트가 환경에서 행동하는 방식을 포함하여 개념을 최대화합니다. 누적 보상.

간단히 말하면, 강화 학습로봇은 보상과 처벌 메커니즘으로 훈련됩니다. 올바른 행동을 하면 보상을 받고, 잘못된 행동은 잘못된 행동에 대해 처벌됩니다. 강화 학습 봇은 더 나은 행동을 취하는 방법을 "생각" 하지 않고 모든 행동을 가능하게 만들어 성공 가능성을 극대화합니다. 강화 학습의 단점

강화학습이 과대평가되었나요?

강화 학습의 가장 큰 단점은 목표를 달성하기 위해 많은 양의 리소스를 사용해야 한다는 것입니다. 바둑 게임에서 강화학습의 성공이 이를 잘 보여줍니다. 이것은 인기 있는 2인용 게임으로, 조각을 잃지 않고 조각을 사용하여 보드의 최대 영역을 차지하는 것이 목표입니다.

AlphaGo Master는 바둑에서 인간 플레이어를 이기는 컴퓨터 프로그램으로 많은 엔지니어, 매우 풍부한 게임 경험, 256 GPU 및 128,000 CPU를 포함하여 많은 비용과 인력을 소비합니다.

게임에서 승리하는 방법을 배우는 과정에는 많은 자원과 에너지가 투자되어야 합니다. 직관적으로 생각할 수 없는 AI를 설계하는 것이 합리적일까요? AI 연구는 인간 지능을 모방해야 하지 않을까요?

강화 학습을 지지하는 한 가지 주장은 사람들이 기대해서는 안 된다는 것입니다. AI to 이 시스템은 인간처럼 행동하며 복잡한 문제를 해결하는 데 사용하려면 추가 개발이 필요합니다. 반면, 강화 학습에 반대하는 주장은 AI 연구가 현재 인간과 동물만이 할 수 있는 일을 기계가 수행하도록 하는 데 초점을 맞춰야 한다는 것입니다. 이런 관점에서 볼 때 인공지능과 인간지능의 비교는 적절하다.

양자 강화 학습

강화 학습은 위의 문제 중 일부를 해결할 수 있다고 알려진 새로운 분야입니다. QRL(양자 강화 학습)은 컴퓨팅을 가속화하는 방법입니다.

먼저 QRL(양자 강화 학습)은 탐색(전략 발견) 및 활용(최상의 전략 선택) 단계를 최적화하여 학습을 가속화해야 합니다. 일부 현재 애플리케이션과 제안된 양자 컴퓨팅은 데이터베이스 검색을 개선하고, 큰 숫자를 소수로 분해하는 등의 작업을 수행합니다.

QRL(양자 강화 학습)이 획기적인 방식으로 등장하지는 않았지만 기존 강화 학습의 주요 과제 중 일부를 해결할 수 있는 가능성을 갖고 있습니다.

강화 학습을 위한 비즈니스 사례

강화학습이 과대평가되었나요?

위에서 언급했듯이 강화 학습 연구 및 개발은 매우 중요합니다. 다음은 McKinsey & Company 설문 조사에서 얻은 강화 학습의 실제 사례입니다.

반도체 및 칩 설계를 최적화하고 제조 공정을 최적화하며 반도체 산업의 생산량을 늘리세요.
공장 생산량을 늘리고, 물류를 최적화하여 폐기물과 비용을 줄이고, 농업 이익을 늘립니다.
항공우주 및 방위 산업의 새로운 시스템 출시 기간을 단축하세요.
자동차 산업의 설계 프로세스를 최적화하고 생산 효율성을 향상시킵니다.
실시간 거래 및 가격 전략을 통해 수익을 늘리고 고객 경험을 개선하며 고객에게 금융 서비스의 고급 개인화 기능을 제공합니다.
광산 설계 최적화, 발전 관리, 전체 물류 일정 적용, 운영 최적화, 비용 절감, 생산량 증대를 실현하세요.
석유 및 가스 산업에서 실시간 모니터링과 정밀한 시추를 통해 생산량을 늘리고, 유조선 경로를 최적화하고, 예측 유지보수를 달성하고, 장비 고장을 방지합니다.
제약 산업에서 신약 발견을 촉진하고, 연구 프로세스를 최적화하고, 생산을 자동화하고, 생물학적 방법을 최적화합니다.
공급망을 최적화하고 고급 재고 모델링을 구현하며 소매 부문 고객에게 고급 맞춤형 서비스를 제공합니다.
통신 산업에서 고객 개인화를 적용하여 네트워크를 최적화하고 관리합니다.
운송 물류 경로, 네트워크 계획, 창고 운영을 최적화합니다.
차세대 프록시를 사용하여 웹사이트에서 데이터를 추출하세요.