디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

Microsoft 마작 AI - Suphx 논문 리뷰 (2)

HES(222.107) 2020.08.12 19:57:53
조회 952 추천 10 댓글 3
														

여기서 부터는 ㅈ공지능 전문가 아니면 이해하기 어려운 내용이 있을텐데 거르고 봐도 댐

애당초 논문이란건 전문가들 읽으라고 쓰는거기때문에 어쩔 수 없다

그래도 이런 똥글은 일반인들만 읽을거니까 일반인들을 위한 내용으로 좀 더 채웠다.


마작에는 10의 48승가지의 경우의 수가 존재할 수 있다고 함.

※3턴에 어떤 손패 상황에서 어떤 패를 쯔모해 오고 어떤 걸 버리는지 모든 경우를 따지면 그럴수도

하지만 보통 첫 턴에 3-7 수패를 버리는 일은 없을테니 실제로 벌어지는 상황은 10의 48승보단 적을 듯


그래도 A4 용지 50번만 접어도(2^50) 그 두께가 지구에서 태양까지 닿는다고 하는데 마작의 경우의 수도

어마어마하긴 함

그래서 연산량을 좀 줄일 필요가 있다.



연상량을 줄이기 위해서


1. Depth First Search 쓴다고 함 (알파고는 Breadth First Search 씀)

※ 둘의 차이는 DFS가 BFS보다 먼 미래를 볼 수 있는데 볼 수 있는 미래 가지 수는 적음


2. 상대방 행동에 대해서 ㅈ도 신경 안쓴다고 함.


게임에서 가장 중요한 건 앞으로 벌어질 수만가지 상황에 대해서 예측하는 거임


바둑은 내가 (3,4)에 두면 상대는 (7,9)에 둘거같아 그럼 나는 어디에 (3,5)에 둬야지

or 내가 (7, 9)에 두면 상대는 (3, 4)에 두겠지?

이런 식으로 예상을 하고 더 좋은 수를 찾는데


마작의 경우 상대방이 나랑 전혀 상관없는 패를 버리는 경우의 수까지 따지면 연산량이 감당이 안돼서

자신이 치, 퐁, 캉, 쯔모를 통해 패를 가져오는 경우에 대해서만 예상해 나간다는 뜻


그거랑 별개로 내가 생각한 수만가지 미래 중에서 이게 좋아보이지만 폐기 모델이 생각했을 때

이 패는 버리면 안되는 패라면 다른 미래를 고름


위에 ㅈㄴ 간단해 보이는 2가지를 이용해서 100가지가 넘는 플랜을 구상할 수 있다고 함.

내가 가진 어떤 패 1개를 교체하면 1000점 짜리 역이 완성된다.

혹은 내가 가진 어떤 패를 3개 교체하면 12000점 짜리 역이 완성된다.

이런 식의 여러가지 상황에 대해서 예상가능



예측 모델에 대해서


1부에서 소개했던 치트급 예측 모델에 대해서 드디어 알려주는데 생각보다 간단함.


시간과 정신의 방에서 수련을 하는데

처음에는 패산과 상대방의 패를 모두 보면서 두는 거임

그거에 익숙해져서 잘두게되면 10% 정도 가림

그러면 처음엔 다 볼 때처럼 잘 두지 못하는데 계속 학습하면

모두 보면서 둘때 처럼 둘 수 있게 됨


그런 식으로 최종적으로는 실제 게임처럼 플레이하게 되는데

실제로 모든 패를 볼 때 처럼 예측이 가능하다는 거임


패산에 남아있는 패, 상대방이 들고 있는 패 등의 정보를 안줘도

줬을 때랑 결과가 비슷하게 나온다는 뜻



pMCPA에 대해서


1부에서 잠깐 소개했었는데 몬테 카를로 트리 서치(MCTS)의 변형 모델

바둑, 체스 이런 건 초기상태가 모두 동일하지만 마작은 모든게 랜덤이라 MCTS 쓰기가 어려움

그래서 내 패는 고정한 채로 나머지 패들만 섞어서 여러판 둠


기존 MCTS는 (selection -> expansion -> simulation -> backpropagation) 4단계로 진행되는데

pMCPA는 (simulations -> adaptation -> inference) 3단계로 진행됨


얘네가 코드를 공개를 안해서 실제로 어떻게 동작하는지 모르겠지만 대충 번역해 보면


simulations

상대방과 패산의 패를 랜덤 샘플링하고 후보로 추출된 action들을 실행할 거임.

DFS를 쓴다고 했으니 offline-trained policy를 이용해서 게임이 끝날 때 까지 진행할 듯


adaptation

simulation 결과를 이용해서 모델 파라미터를 업데이트함


inference

단계에서 업데이트된 파라미터를 이용해서 이번턴의 행동을 확정하고 진행함. 다시 simulation 반복



나도 이해가 안가는 부분


1. 그럼 라운드 진행할 때 마다 상대방과 패산의 패를 섞는거임 ? -> 아마도? 정확하게 모르겠음


2. and then use the offline-trained policy to roll out and finish the whole trajectory

이렇게만 써있는데 게임 끝날 때 까지 진행하는 거 맞음 ?

-> 분명 위에서 DFS 쓴다고 했는데 그거에 대해서 이 부분에 설명이 없음. 그냥 읽어보면 BFS로 K개의 (state,action)쌍을 실행하는 것 같은데 분명 DFS 쓴다고 헀으니 끝까지 진행할 듯?

코드 공개가 안되있어서 뇌피셜인 부분



그 밖에는 마작보다 딥러닝에 대한 내용임


viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f57fcb32cd6f60336fe431aee


viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f52a0b32e80a65031fe431aee

(Distributed Reinforcement Learning with Entropy Regularization)

시간과 정신에 방에서 한판씩 두면서 학습하는게 아니라

나루토 처럼 그림자 분신 만들어서 병렬로 수십 수백판을 진행하면서

학습한 것을 어떻게 본체에 반영했는지에 대해서라거나

(자세한 내용: https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html)


(Global Reward Prediction)

RNN(Recurrent Neural Network)을 이용해서 최종 점수 예측을 하는 부분이라던가


CNN 모델의 input을 어떻게 encoding 하는지에 대해서도 설명하는데

그냥 두리뭉술하게 서술하고 정확하게는 안적어 놓음

코드도 없어서 걍 뺌



마지막으로 실험 데이터

viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f55acbc278bf25037fe431aee

요약해보자면 약 100,000,000번 정도 혼자서 게임을 진행했고

천봉에서는 5,760회 게임플레이해서 10단 찍고 안정단수는 8.74단이라고 함

다른 ㅈ공지능 마작 모델과 비교해서 수준이 높은 편



viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f55afe92783a10463fe431aee

실제로 게임 플레이 통계표를 제공해주는데

재밌는 부분이 화료율은 오히려 낮은데 1위 확률은 월등히 높음

이길 때 확실히 이기고 이길 판 아니면 상대가 크게 못나게 막는다는 뜻

Deal-in Rate가 쏘일 확률인데 10판하면 1판정도 쏘인다고 함

문제는 얘가 판 끝내려고 일부로 쏘이는 경우도 있어서 맘만 먹으면 훨씬 낮아질 수 있음


이상이 Suphx 요약이다.


이제 이걸 만들어야하는데

Suphx는 RL 돌리는데 GPU 수십개를 때려박아서 따라서 만들기 힘들어 보임

차라리 Bakuuchi, NAGA 이런 얘들이 CNN만 이용해서 학습했다는거 보면 가능해보임


추천 비추천

10

고정닉 3

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
AD 호요버스 신작 <젠레스 존 제로> 7월 4일 오픈! 운영자 24/06/05 - -
414953 경품 내전 74442 [4] 왱알왱알앵알갤로그로 이동합니다. 20.08.07 89 0
414952 경품 2명인가 [4] Hitomi.Ia갤로그로 이동합니다. 20.08.07 81 0
414951 이 패로 치또이 가는 혹우없제? [2] (221.143) 20.08.07 78 0
414950 ㅋㅋㅋㅋㅋㅋ? [3] ㅇㅇ(113.60) 20.08.07 54 0
414949 스텟 개병신같네 [3] ㅇㅇ(14.36) 20.08.07 78 0
414948 난갤별로안해 [1] RikaDesu갤로그로 이동합니다. 20.08.07 34 0
414947 마갤에서 토한거는 그분 아니신가 환타병속의프롤린갤로그로 이동합니다. 20.08.07 135 0
414946 난 갤창은 아니지 ㄹㅇ [5] 길가던댕댕이갤로그로 이동합니다. 20.08.07 61 0
414945 이쯤에서 다시보는 짱개가 있는 옥탁과 없는 옥탁차이 [3] (221.143) 20.08.07 114 0
414944 요즘 1등해도 마음이 편하지가 않음 [2] ㅌㄷ(222.233) 20.08.07 47 0
414942 갤창녀랭킹 가져옴ㄷㄷ [2] 순전대요구갤로그로 이동합니다. 20.08.07 100 0
414939 공수판단의 교과서 [3] 길가던댕댕이갤로그로 이동합니다. 20.08.07 109 0
414938 작사다음머임 [4] j20(223.39) 20.08.07 56 0
414937 와 이게 되네요 [10] Ho9toGod갤로그로 이동합니다. 20.08.07 87 2
414936 드디어 점수복구 했다~~~ [7] (221.143) 20.08.07 85 0
414935 ㅎㅇㅎㅇ내가갤을좀 안하나해서 열심히하러옴 [10] RikaDesu갤로그로 이동합니다. 20.08.07 85 0
414933 1080/2400 [8] 용기사바르스갤로그로 이동합니다. 20.08.07 84 0
414932 문제) 결과를 보고 대삼원을 화료한 플레이어를 고르시오 [8] 꼬마삼대장갤로그로 이동합니다. 20.08.07 135 1
414931 내전수고수고 [6] 순전대요구갤로그로 이동합니다. 20.08.07 57 0
414929 내전 수고염ㅎ [3] 치요미(211.106) 20.08.07 36 0
414927 경품 내전 74442 [3] 왱알왱알앵알갤로그로 이동합니다. 20.08.07 55 0
414925 [2] Secretale갤로그로 이동합니다. 20.08.07 42 0
414924 텐도못하고 하이때이 방총하네 [5] ㅇㅇ(124.197) 20.08.07 70 0
414922 스앙커 하고싶다 [3] 목욕탕직행!갤로그로 이동합니다. 20.08.07 55 0
414921 뉴비 질문이 있어요 씨발 [4] 사키로마작을배웠어요갤로그로 이동합니다. 20.08.07 95 0
414920 뉴비 패보분석해줄사람 [24] 캡틴미니갤로그로 이동합니다. 20.08.07 136 0
414919 금요일인데 칼퇴했다 ㄷㄷ [3] 하네냥갤로그로 이동합니다. 20.08.07 70 0
414918 메이드단 string 은 보라 [7] (221.143) 20.08.07 99 0
414917 쓰레피 패를 받는녀석은 어차피 쓰레기다 [1] ㅇㅇ(175.223) 20.08.07 41 0
414916 현타온다... [1] ㅇㅇ(180.230) 20.08.07 39 0
414915 내전 51870 3/4 [5] 치요미(211.106) 20.08.07 68 0
414913 욕심나서 리치했는데 [7] Voidness갤로그로 이동합니다. 20.08.07 96 0
414912 삼마는 [3] 쪙웡갤로그로 이동합니다. 20.08.07 47 1
414911 가장억울한상황이 진짜 개좆배패만받다 좋은배패 딱받앗는데 [3] (221.143) 20.08.07 96 0
414910 판풍패/자풍패 설명 [19] mdic갤로그로 이동합니다. 20.08.07 10605 14
414909 오늘작혼처음깐 늅늅이인데 [3] ㅇㅇ(125.189) 20.08.07 118 0
414908 ㄹㅇ 공격하다 쏘이면 안억울함 여자중학생갤로그로 이동합니다. 20.08.07 66 0
414907 아니 세상에 미야이모 왜 작혼중임? [4] ㅇㅇ(121.182) 20.08.07 206 0
414906 ㅋㅋㅋㅋㅋ 오늘 왜이러냐 진짜 [3] 캡틴미니갤로그로 이동합니다. 20.08.07 74 0
414905 배패공개모드 할사람있나 ㅇㅇ(39.7) 20.08.07 34 0
414902 짱냥이는 참을수 없지 ㅋㅋ [3] ㅇㅇ(59.3) 20.08.07 80 0
414901 와 마작 서 1국 없었노 [4] 프롸갤로그로 이동합니다. 20.08.07 67 0
414900 남들은 달려도 안쏘이던데 나는 내려도 쏘여 ㅅㅂ [5] ㅇㅇ(218.149) 20.08.07 89 0
414899 자풍/장풍패가 머임? [7] ㅇㅇ(121.124) 20.08.07 80 0
414897 뉴비 금탁서 개박살나는중 [16] 캡틴미니갤로그로 이동합니다. 20.08.07 160 0
414896 아니 은탁은... [2] ㅇㅇ(112.186) 20.08.07 59 0
414895 ??? : 리치는 천재도 범부로 만든다 [4] ㅇㅇ(218.149) 20.08.07 279 2
414893 자패 내면 안됨 [10] darnell갤로그로 이동합니다. 20.08.07 163 1
414889 삼마도 마작임 [3] Hitomi.Ia갤로그로 이동합니다. 20.08.07 68 0
414888 1삭지옥대기 [6] 여자중학생갤로그로 이동합니다. 20.08.07 82 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2