Microsoft 마작 AI - Suphx 논문 리뷰 (2)

HES(222.107) 2020.08.12 19:57:53

조회 952 추천 10 댓글 3

여기서 부터는 ㅈ공지능 전문가 아니면 이해하기 어려운 내용이 있을텐데 거르고 봐도 댐

애당초 논문이란건 전문가들 읽으라고 쓰는거기때문에 어쩔 수 없다

그래도 이런 똥글은 일반인들만 읽을거니까 일반인들을 위한 내용으로 좀 더 채웠다.

마작에는 10의 48승가지의 경우의 수가 존재할 수 있다고 함.

※3턴에 어떤 손패 상황에서 어떤 패를 쯔모해 오고 어떤 걸 버리는지 모든 경우를 따지면 그럴수도

하지만 보통 첫 턴에 3-7 수패를 버리는 일은 없을테니 실제로 벌어지는 상황은 10의 48승보단 적을 듯

그래도 A4 용지 50번만 접어도(2^50) 그 두께가 지구에서 태양까지 닿는다고 하는데 마작의 경우의 수도

어마어마하긴 함

그래서 연산량을 좀 줄일 필요가 있다.

연상량을 줄이기 위해서

1. Depth First Search 쓴다고 함 (알파고는 Breadth First Search 씀)

※ 둘의 차이는 DFS가 BFS보다 먼 미래를 볼 수 있는데 볼 수 있는 미래 가지 수는 적음

2. 상대방 행동에 대해서 ㅈ도 신경 안쓴다고 함.

게임에서 가장 중요한 건 앞으로 벌어질 수만가지 상황에 대해서 예측하는 거임

바둑은 내가 (3,4)에 두면 상대는 (7,9)에 둘거같아 그럼 나는 어디에 (3,5)에 둬야지

or 내가 (7, 9)에 두면 상대는 (3, 4)에 두겠지?

이런 식으로 예상을 하고 더 좋은 수를 찾는데

마작의 경우 상대방이 나랑 전혀 상관없는 패를 버리는 경우의 수까지 따지면 연산량이 감당이 안돼서

자신이 치, 퐁, 캉, 쯔모를 통해 패를 가져오는 경우에 대해서만 예상해 나간다는 뜻

그거랑 별개로 내가 생각한 수만가지 미래 중에서 이게 좋아보이지만 폐기 모델이 생각했을 때

이 패는 버리면 안되는 패라면 다른 미래를 고름

위에 ㅈㄴ 간단해 보이는 2가지를 이용해서 100가지가 넘는 플랜을 구상할 수 있다고 함.

내가 가진 어떤 패 1개를 교체하면 1000점 짜리 역이 완성된다.

혹은 내가 가진 어떤 패를 3개 교체하면 12000점 짜리 역이 완성된다.

이런 식의 여러가지 상황에 대해서 예상가능

예측 모델에 대해서

1부에서 소개했던 치트급 예측 모델에 대해서 드디어 알려주는데 생각보다 간단함.

시간과 정신의 방에서 수련을 하는데

처음에는 패산과 상대방의 패를 모두 보면서 두는 거임

그거에 익숙해져서 잘두게되면 10% 정도 가림

그러면 처음엔 다 볼 때처럼 잘 두지 못하는데 계속 학습하면

모두 보면서 둘때 처럼 둘 수 있게 됨

그런 식으로 최종적으로는 실제 게임처럼 플레이하게 되는데

실제로 모든 패를 볼 때 처럼 예측이 가능하다는 거임

패산에 남아있는 패, 상대방이 들고 있는 패 등의 정보를 안줘도

줬을 때랑 결과가 비슷하게 나온다는 뜻

pMCPA에 대해서

1부에서 잠깐 소개했었는데 몬테 카를로 트리 서치(MCTS)의 변형 모델

바둑, 체스 이런 건 초기상태가 모두 동일하지만 마작은 모든게 랜덤이라 MCTS 쓰기가 어려움

그래서 내 패는 고정한 채로 나머지 패들만 섞어서 여러판 둠

기존 MCTS는 (selection -> expansion -> simulation -> backpropagation) 4단계로 진행되는데

pMCPA는 (simulations -> adaptation -> inference) 3단계로 진행됨

얘네가 코드를 공개를 안해서 실제로 어떻게 동작하는지 모르겠지만 대충 번역해 보면

simulations

상대방과 패산의 패를 랜덤 샘플링하고 후보로 추출된 action들을 실행할 거임.

DFS를 쓴다고 했으니 offline-trained policy를 이용해서 게임이 끝날 때 까지 진행할 듯

adaptation

simulation 결과를 이용해서 모델 파라미터를 업데이트함

inference

단계에서 업데이트된 파라미터를 이용해서 이번턴의 행동을 확정하고 진행함. 다시 simulation 반복

나도 이해가 안가는 부분

1. 그럼 라운드 진행할 때 마다 상대방과 패산의 패를 섞는거임 ? -> 아마도? 정확하게 모르겠음

2. and then use the offline-trained policy to roll out and finish the whole trajectory

이렇게만 써있는데 게임 끝날 때 까지 진행하는 거 맞음 ?

-> 분명 위에서 DFS 쓴다고 했는데 그거에 대해서 이 부분에 설명이 없음. 그냥 읽어보면 BFS로 K개의 (state,action)쌍을 실행하는 것 같은데 분명 DFS 쓴다고 헀으니 끝까지 진행할 듯?

코드 공개가 안되있어서 뇌피셜인 부분

그 밖에는 마작보다 딥러닝에 대한 내용임

viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f57fcb32cd6f60336fe431aee

viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f52a0b32e80a65031fe431aee

(Distributed Reinforcement Learning with Entropy Regularization)

시간과 정신에 방에서 한판씩 두면서 학습하는게 아니라

나루토 처럼 그림자 분신 만들어서 병렬로 수십 수백판을 진행하면서

학습한 것을 어떻게 본체에 반영했는지에 대해서라거나

(자세한 내용: https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html)

(Global Reward Prediction)

RNN(Recurrent Neural Network)을 이용해서 최종 점수 예측을 하는 부분이라던가

CNN 모델의 input을 어떻게 encoding 하는지에 대해서도 설명하는데

그냥 두리뭉술하게 서술하고 정확하게는 안적어 놓음

코드도 없어서 걍 뺌

마지막으로 실험 데이터

viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f55acbc278bf25037fe431aee

요약해보자면 약 100,000,000번 정도 혼자서 게임을 진행했고

천봉에서는 5,760회 게임플레이해서 10단 찍고 안정단수는 8.74단이라고 함

다른 ㅈ공지능 마작 모델과 비교해서 수준이 높은 편

viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f55afe92783a10463fe431aee

실제로 게임 플레이 통계표를 제공해주는데

재밌는 부분이 화료율은 오히려 낮은데 1위 확률은 월등히 높음

이길 때 확실히 이기고 이길 판 아니면 상대가 크게 못나게 막는다는 뜻

Deal-in Rate가 쏘일 확률인데 10판하면 1판정도 쏘인다고 함

문제는 얘가 판 끝내려고 일부로 쏘이는 경우도 있어서 맘만 먹으면 훨씬 낮아질 수 있음

이상이 Suphx 요약이다.

이제 이걸 만들어야하는데

Suphx는 RL 돌리는데 GPU 수십개를 때려박아서 따라서 만들기 힘들어 보임

차라리 Bakuuchi, NAGA 이런 얘들이 CNN만 이용해서 학습했다는거 보면 가능해보임

고정닉 3

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는?	운영자	24/06/03	-	-
AD	호요버스 신작 <젠레스 존 제로> 7월 4일 오픈!	운영자	24/06/05	-	-
414953	경품 내전 74442 [4]	왱알왱알앵알	20.08.07	89	0
414952	경품 2명인가 [4]	Hitomi.Ia	20.08.07	81	0
414951	이 패로 치또이 가는 혹우없제? [2]	㉹(221.143)	20.08.07	78	0
414950	ㅋㅋㅋㅋㅋㅋ? [3]	ㅇㅇ(113.60)	20.08.07	54	0
414949	스텟 개병신같네 [3]	ㅇㅇ(14.36)	20.08.07	78	0
414948	난갤별로안해 [1]	RikaDesu	20.08.07	34	0
414947	마갤에서 토한거는 그분 아니신가	환타병속의프롤린	20.08.07	135	0
414946	난 갤창은 아니지 ㄹㅇ [5]	길가던댕댕이	20.08.07	61	0
414945	이쯤에서 다시보는 짱개가 있는 옥탁과 없는 옥탁차이 [3]	㉹(221.143)	20.08.07	114	0
414944	요즘 1등해도 마음이 편하지가 않음 [2]	ㅌㄷ(222.233)	20.08.07	47	0
414942	갤창녀랭킹 가져옴ㄷㄷ [2]	순전대요구	20.08.07	100	0
414939	공수판단의 교과서 [3]	길가던댕댕이	20.08.07	109	0
414938	작사다음머임 [4]	j20(223.39)	20.08.07	56	0
414937	와 이게 되네요 [10]	Ho9toGod	20.08.07	87	2
414936	드디어 점수복구 했다~~~ [7]	㉹(221.143)	20.08.07	85	0
414935	ㅎㅇㅎㅇ내가갤을좀 안하나해서 열심히하러옴 [10]	RikaDesu	20.08.07	85	0
414933	1080/2400 [8]	용기사바르스	20.08.07	84	0
414932	문제) 결과를 보고 대삼원을 화료한 플레이어를 고르시오 [8]	꼬마삼대장	20.08.07	135	1
414931	내전수고수고 [6]	순전대요구	20.08.07	57	0
414929	내전 수고염ㅎ [3]	치요미(211.106)	20.08.07	36	0
414927	경품 내전 74442 [3]	왱알왱알앵알	20.08.07	55	0
414925	깡 [2]	Secretale	20.08.07	42	0
414924	텐도못하고 하이때이 방총하네 [5]	ㅇㅇ(124.197)	20.08.07	70	0
414922	스앙커 하고싶다 [3]	목욕탕직행!	20.08.07	55	0
414921	뉴비 질문이 있어요 씨발 [4]	사키로마작을배웠어요	20.08.07	95	0
414920	뉴비 패보분석해줄사람 [24]	캡틴미니	20.08.07	136	0
414919	금요일인데 칼퇴했다 ㄷㄷ [3]	하네냥	20.08.07	70	0
414918	메이드단 string 은 보라 [7]	㉹(221.143)	20.08.07	99	0
414917	쓰레피 패를 받는녀석은 어차피 쓰레기다 [1]	ㅇㅇ(175.223)	20.08.07	41	0
414916	현타온다... [1]	ㅇㅇ(180.230)	20.08.07	39	0
414915	내전 51870 3/4 [5]	치요미(211.106)	20.08.07	68	0
414913	욕심나서 리치했는데 [7]	Voidness	20.08.07	96	0
414912	삼마는 [3]	쪙웡	20.08.07	47	1
414911	가장억울한상황이 진짜 개좆배패만받다 좋은배패 딱받앗는데 [3]	㉹(221.143)	20.08.07	96	0
414910	판풍패/자풍패 설명 [19]	mdic	20.08.07	10605	14
414909	오늘작혼처음깐 늅늅이인데 [3]	ㅇㅇ(125.189)	20.08.07	118	0
414908	ㄹㅇ 공격하다 쏘이면 안억울함	여자중학생	20.08.07	66	0
414907	아니 세상에 미야이모 왜 작혼중임? [4]	ㅇㅇ(121.182)	20.08.07	206	0
414906	ㅋㅋㅋㅋㅋ 오늘 왜이러냐 진짜 [3]	캡틴미니	20.08.07	74	0
414905	배패공개모드 할사람있나	ㅇㅇ(39.7)	20.08.07	34	0
414902	짱냥이는 참을수 없지 ㅋㅋ [3]	ㅇㅇ(59.3)	20.08.07	80	0
414901	와 마작 서 1국 없었노 [4]	프롸	20.08.07	67	0
414900	남들은 달려도 안쏘이던데 나는 내려도 쏘여 ㅅㅂ [5]	ㅇㅇ(218.149)	20.08.07	89	0
414899	자풍/장풍패가 머임? [7]	ㅇㅇ(121.124)	20.08.07	80	0
414897	뉴비 금탁서 개박살나는중 [16]	캡틴미니	20.08.07	160	0
414896	아니 은탁은... [2]	ㅇㅇ(112.186)	20.08.07	59	0
414895	??? : 리치는 천재도 범부로 만든다 [4]	ㅇㅇ(218.149)	20.08.07	279	2
414893	자패 내면 안됨 [10]	darnell	20.08.07	163	1
414889	삼마도 마작임 [3]	Hitomi.Ia	20.08.07	68	0
414888	1삭지옥대기 [6]	여자중학생	20.08.07	82	0