OpenAI에서 최근 마인크래프트를 Video-pretraining을 통해 다이아몬드 곡괭이까지 만드는 것에 성공했다. Atari보다 훨씬 큰 latent space(state, action 모두)에서 이것을 성공한 것은 대단한 일이다. 이전 OpenAI에서는 로봇손으로 루빅큐브를 푸는 것도 성공한 바 있다.
위 두 가지 접근은 현실에 어떻게 강화학습이 적용될 수 있을까에 대한 두 가지 접근방식을 보여준다.
사람이 플레이한 게임 화면을 그대로 보여주어 사전 학습을 시킨 후 강화학습을 훈련시키는 것.
이 방법은 강화학습 agent가 보는 pixel단위의 화면과 사전학습시키는 화면이 같아야 한다. 그래야 사전학습한 network의 효율이 올라갈 것이다.
이게 마인크래프트에서 통했던 방법이다.
가상환경(simulator) 또는 디지털 트윈을 만들어서 그 안에서 충분히 훈련시킨 후 현실문제에서 강화학습 시키는 것.
가상환경의 control 환경이 현실의 환경과 최대한 비슷해야 성공할 수 있다.
이 방법이 로봇손 문제에서 통했던 방법이다.
두 방법 모두 쉽지 않고, 현재로서는 제한적이다. 의료 분야를 보자. 디지털 트윈을 의료 환경에서 얼마나 완벽하게, 강화학습 의사를 만들 수 있을 정도로 만들 수 있을까? 현실로 나온 강화학습 AI의사는 얼마나 추가 훈련을 해야 정말로 진료를 할 수 있을 것인가? 안전은 어떻게 보장되는가? 아니면 AI의사가 진료를 볼 때 필요할 만한 사전학습용 비디오 데이터는 얼마나 충분한가? 그것이 AI의사가 현실에서 보게될 화면과 얼마나 일치할 것인가?
현실의 noise를 얼마나 위 두 학습 방식에 반영될 수 있을 것인가? out-of-distribution에 해당하는 상황이 발생했을 때, AI의사는 얼마나 유연하게 그러면서 합리적으로 반응할 것인가?