강화학습은 게임환경 밖 실제 환경에서 사용될 수 있을 것인가

OpenAI에서 최근 마인크래프트를 Video-pretraining을 통해 다이아몬드 곡괭이까지 만드는 것에 성공했다. Atari보다 훨씬 큰 latent space(state, action 모두)에서 이것을 성공한 것은 대단한 일이다. 이전 OpenAI에서는 로봇손으로 루빅큐브를 푸는 것도 성공한 바 있다. 위 두 가지 접근은 현실에 어떻게 강화학습이 적용될 수 있을까에 대한 두 가지 접근방식을 보여준다. 사람이 플레이한 게임 화면을 그대로 보여주어 사전 학습을 시킨 … 계속 읽기 강화학습은 게임환경 밖 실제 환경에서 사용될 수 있을 것인가