디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

Microsoft 마작 AI - Suphx 논문 리뷰 (2)

HES(222.107) 2020.08.12 19:57:53
조회 958 추천 10 댓글 3
														

여기서 부터는 ㅈ공지능 전문가 아니면 이해하기 어려운 내용이 있을텐데 거르고 봐도 댐

애당초 논문이란건 전문가들 읽으라고 쓰는거기때문에 어쩔 수 없다

그래도 이런 똥글은 일반인들만 읽을거니까 일반인들을 위한 내용으로 좀 더 채웠다.


마작에는 10의 48승가지의 경우의 수가 존재할 수 있다고 함.

※3턴에 어떤 손패 상황에서 어떤 패를 쯔모해 오고 어떤 걸 버리는지 모든 경우를 따지면 그럴수도

하지만 보통 첫 턴에 3-7 수패를 버리는 일은 없을테니 실제로 벌어지는 상황은 10의 48승보단 적을 듯


그래도 A4 용지 50번만 접어도(2^50) 그 두께가 지구에서 태양까지 닿는다고 하는데 마작의 경우의 수도

어마어마하긴 함

그래서 연산량을 좀 줄일 필요가 있다.



연상량을 줄이기 위해서


1. Depth First Search 쓴다고 함 (알파고는 Breadth First Search 씀)

※ 둘의 차이는 DFS가 BFS보다 먼 미래를 볼 수 있는데 볼 수 있는 미래 가지 수는 적음


2. 상대방 행동에 대해서 ㅈ도 신경 안쓴다고 함.


게임에서 가장 중요한 건 앞으로 벌어질 수만가지 상황에 대해서 예측하는 거임


바둑은 내가 (3,4)에 두면 상대는 (7,9)에 둘거같아 그럼 나는 어디에 (3,5)에 둬야지

or 내가 (7, 9)에 두면 상대는 (3, 4)에 두겠지?

이런 식으로 예상을 하고 더 좋은 수를 찾는데


마작의 경우 상대방이 나랑 전혀 상관없는 패를 버리는 경우의 수까지 따지면 연산량이 감당이 안돼서

자신이 치, 퐁, 캉, 쯔모를 통해 패를 가져오는 경우에 대해서만 예상해 나간다는 뜻


그거랑 별개로 내가 생각한 수만가지 미래 중에서 이게 좋아보이지만 폐기 모델이 생각했을 때

이 패는 버리면 안되는 패라면 다른 미래를 고름


위에 ㅈㄴ 간단해 보이는 2가지를 이용해서 100가지가 넘는 플랜을 구상할 수 있다고 함.

내가 가진 어떤 패 1개를 교체하면 1000점 짜리 역이 완성된다.

혹은 내가 가진 어떤 패를 3개 교체하면 12000점 짜리 역이 완성된다.

이런 식의 여러가지 상황에 대해서 예상가능



예측 모델에 대해서


1부에서 소개했던 치트급 예측 모델에 대해서 드디어 알려주는데 생각보다 간단함.


시간과 정신의 방에서 수련을 하는데

처음에는 패산과 상대방의 패를 모두 보면서 두는 거임

그거에 익숙해져서 잘두게되면 10% 정도 가림

그러면 처음엔 다 볼 때처럼 잘 두지 못하는데 계속 학습하면

모두 보면서 둘때 처럼 둘 수 있게 됨


그런 식으로 최종적으로는 실제 게임처럼 플레이하게 되는데

실제로 모든 패를 볼 때 처럼 예측이 가능하다는 거임


패산에 남아있는 패, 상대방이 들고 있는 패 등의 정보를 안줘도

줬을 때랑 결과가 비슷하게 나온다는 뜻



pMCPA에 대해서


1부에서 잠깐 소개했었는데 몬테 카를로 트리 서치(MCTS)의 변형 모델

바둑, 체스 이런 건 초기상태가 모두 동일하지만 마작은 모든게 랜덤이라 MCTS 쓰기가 어려움

그래서 내 패는 고정한 채로 나머지 패들만 섞어서 여러판 둠


기존 MCTS는 (selection -> expansion -> simulation -> backpropagation) 4단계로 진행되는데

pMCPA는 (simulations -> adaptation -> inference) 3단계로 진행됨


얘네가 코드를 공개를 안해서 실제로 어떻게 동작하는지 모르겠지만 대충 번역해 보면


simulations

상대방과 패산의 패를 랜덤 샘플링하고 후보로 추출된 action들을 실행할 거임.

DFS를 쓴다고 했으니 offline-trained policy를 이용해서 게임이 끝날 때 까지 진행할 듯


adaptation

simulation 결과를 이용해서 모델 파라미터를 업데이트함


inference

단계에서 업데이트된 파라미터를 이용해서 이번턴의 행동을 확정하고 진행함. 다시 simulation 반복



나도 이해가 안가는 부분


1. 그럼 라운드 진행할 때 마다 상대방과 패산의 패를 섞는거임 ? -> 아마도? 정확하게 모르겠음


2. and then use the offline-trained policy to roll out and finish the whole trajectory

이렇게만 써있는데 게임 끝날 때 까지 진행하는 거 맞음 ?

-> 분명 위에서 DFS 쓴다고 했는데 그거에 대해서 이 부분에 설명이 없음. 그냥 읽어보면 BFS로 K개의 (state,action)쌍을 실행하는 것 같은데 분명 DFS 쓴다고 헀으니 끝까지 진행할 듯?

코드 공개가 안되있어서 뇌피셜인 부분



그 밖에는 마작보다 딥러닝에 대한 내용임


viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f57fcb32cd6f60336fe431aee


viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f52a0b32e80a65031fe431aee

(Distributed Reinforcement Learning with Entropy Regularization)

시간과 정신에 방에서 한판씩 두면서 학습하는게 아니라

나루토 처럼 그림자 분신 만들어서 병렬로 수십 수백판을 진행하면서

학습한 것을 어떻게 본체에 반영했는지에 대해서라거나

(자세한 내용: https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html)


(Global Reward Prediction)

RNN(Recurrent Neural Network)을 이용해서 최종 점수 예측을 하는 부분이라던가


CNN 모델의 input을 어떻게 encoding 하는지에 대해서도 설명하는데

그냥 두리뭉술하게 서술하고 정확하게는 안적어 놓음

코드도 없어서 걍 뺌



마지막으로 실험 데이터

viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f55acbc278bf25037fe431aee

요약해보자면 약 100,000,000번 정도 혼자서 게임을 진행했고

천봉에서는 5,760회 게임플레이해서 10단 찍고 안정단수는 8.74단이라고 함

다른 ㅈ공지능 마작 모델과 비교해서 수준이 높은 편



viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf84ae32ed6e20d805816b6297e6c959a344ec816df3d75f55afe92783a10463fe431aee

실제로 게임 플레이 통계표를 제공해주는데

재밌는 부분이 화료율은 오히려 낮은데 1위 확률은 월등히 높음

이길 때 확실히 이기고 이길 판 아니면 상대가 크게 못나게 막는다는 뜻

Deal-in Rate가 쏘일 확률인데 10판하면 1판정도 쏘인다고 함

문제는 얘가 판 끝내려고 일부로 쏘이는 경우도 있어서 맘만 먹으면 훨씬 낮아질 수 있음


이상이 Suphx 요약이다.


이제 이걸 만들어야하는데

Suphx는 RL 돌리는데 GPU 수십개를 때려박아서 따라서 만들기 힘들어 보임

차라리 Bakuuchi, NAGA 이런 얘들이 CNN만 이용해서 학습했다는거 보면 가능해보임


추천 비추천

10

고정닉 3

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
AD 뉴진스, 배틀그라운드로 데뷔 준비 완료! 운영자 24/06/21 - -
AD 현물 경품 획득 기회! 아키에이지 지역 점령전 업데이트 운영자 24/06/20 - -
413721 더블역만 맞고나니까 시련 스텟 밸런스 좀 맞아짐 ㅋㅋ ㅋㅇ.갤로그로 이동합니다. 20.08.06 44 0
413720 랭겜 첫 역만? [1] Pvt.Martin갤로그로 이동합니다. 20.08.06 53 0
413718 야 내 오야는 씨발년아 ㅋㅇ.갤로그로 이동합니다. 20.08.06 31 0
413717 89 이렇게 들어오는거도 과감히 버리는게 나음? [3] 무동닉갤로그로 이동합니다. 20.08.06 64 0
413715 안보는동안 뭔일이 있었어 [6] yunhd808갤로그로 이동합니다. 20.08.06 70 0
413714 오늘 9판쳤는데 1등 한번을 못하네 ㅇㅇ(114.203) 20.08.06 19 0
413713 아 패 버리는 곳을 강이라고 그러는 거구나 [8] ㅇㅇ(175.223) 20.08.06 88 0
413712 뉴비 첫 역만 ㅋㅋㅋㅋ [11] darnell갤로그로 이동합니다. 20.08.06 834 11
413710 역시 난 천재야 [1] ㅋㅇ.갤로그로 이동합니다. 20.08.06 45 0
413709 근데 이것들 세개 다 적용해도 괜찮음? [1] 로막브2갤로그로 이동합니다. 20.08.06 47 0
413708 아무리 생각해도 마작에 흐름은 있음 [2] ㅌㄷ(222.233) 20.08.06 67 0
413707 나가시 배워간다 [4] 목욕탕직행!갤로그로 이동합니다. 20.08.06 81 1
413706 밤이되니깐 노래듣고싶다 [1] 순전대요구갤로그로 이동합니다. 20.08.06 30 0
413705 마작 경지에 오르면 이렇게 됨 [2] ㅇㅇ(222.121) 20.08.06 73 0
413703 대강 마작치면칠수록 IQ가 떨어진다고보면댐 [7] (221.143) 20.08.06 126 0
413702 나가시 만관은 머냐 [9] 목욕탕직행!갤로그로 이동합니다. 20.08.06 1299 0
413701 하않이 씨발녀이 [3] ㅋㅇ.갤로그로 이동합니다. 20.08.06 63 0
413700 한패 적용 안될때 확인해야할 것 2 신짱구(119.206) 20.08.06 100 1
413699 근데 나 마작 할 능지가 안될거같은데 [16] 로막브2갤로그로 이동합니다. 20.08.06 162 1
413698 ??? : 북 [5] 왱알왱알앵알갤로그로 이동합니다. 20.08.06 87 2
413697 하 씨발 다시봐도 좆같네 [2] ㅌㄷ(222.233) 20.08.06 66 0
413696 똥싸고 온 김케이는 생각한다 ㅋㅇ.갤로그로 이동합니다. 20.08.06 65 0
413695 100억받고 작혼접기vs99.99999999억 받고 작혼 계속 하기 [1] Hitomi.Ia갤로그로 이동합니다. 20.08.06 64 0
413694 마작패는 어디서 어떤거 사는게 낫냐 [7] 아제르바이잔갤로그로 이동합니다. 20.08.06 117 0
413693 오늘부터 마작은 전세계적으로 유명해질것 [2] 로막브2갤로그로 이동합니다. 20.08.06 83 0
413692 다시 리세계 남은거 정리 [1] shm(1.238) 20.08.06 111 0
413691 치또이보다 또이또이 2배이상인 갤럼나와라 [5] (221.143) 20.08.06 77 0
413690 마붕이들 잠이나자 ㅉㅉ [1] 렌탈치즈루갤로그로 이동합니다. 20.08.06 24 0
413688 화장실에서 똥싸면서 갤보는데 너무 억울하다 [1] ㅋㅇ.갤로그로 이동합니다. 20.08.06 65 0
413687 오늘의 공수판단 [11] yunhd808갤로그로 이동합니다. 20.08.06 105 0
413686 혼란해진 갤러리 [1] shm(1.238) 20.08.06 80 2
413685 누군가 좋아할만한 배패 [7] 왱알왱알앵알갤로그로 이동합니다. 20.08.06 112 1
413684 오늘의상식 스앙커텐빠이일땐 자동화료를 끄자 [11] 이토-요-카도-갤로그로 이동합니다. 20.08.06 108 0
413683 섹스하고싶다 [7] QWERTY.갤로그로 이동합니다. 20.08.06 77 0
413682 나는 알몸단기 배만 쯔모를 했지만 [6] -햄버거-갤로그로 이동합니다. 20.08.06 119 1
413680 일찍자야하는데 분쟁+삼마+스단에 벌써 시간이.. [6] ㅇㅇ(221.158) 20.08.06 89 1
413679 스단은 맞았지만 시련 레벨은 올라간다... [4] ㅋㅇ.갤로그로 이동합니다. 20.08.06 83 0
413678 오늘도 작갤은 평화롭습니다... [2] (221.143) 20.08.06 59 0
413677 마작치면서 볼거 추천함 [5] 왱알왱알앵알갤로그로 이동합니다. 20.08.06 90 0
413676 버튜버가 치오리처럼 수박먹는 움짤 [4] 렌탈치즈루갤로그로 이동합니다. 20.08.06 101 0
413675 얘들아 미안하다... 작혼중계 할랬는데 힘이 다 빠졌다... [3] ㅋㅇ.갤로그로 이동합니다. 20.08.06 63 0
413673 아 ㅋㅋ 시발년 분명 리치일발인데 족보도장 하나밖에 안찍히길래 [4] ㅋㅇ.갤로그로 이동합니다. 20.08.06 96 1
413672 삼마 좋아하는 사람 접어. [5] 역의신갤로그로 이동합니다. 20.08.06 112 3
413671 애미디진 씨발새끼야 이게 게임이냐???????????????? [41] ㅋㅇ.갤로그로 이동합니다. 20.08.06 1145 24
413670 난 가장 쌘 역이 [5] 목욕탕직행!갤로그로 이동합니다. 20.08.06 67 0
413669 화내는거 구경하는게 재밌는게 이상한거냐? [3] ㅇㅇ(175.223) 20.08.06 72 0
413668 삼마 룰 [8] Hitomi.Ia갤로그로 이동합니다. 20.08.06 75 0
413667 답은 좇냥이다 [3] ㅇㅇ갤로그로 이동합니다. 20.08.06 62 0
413666 님들 제 비장의 화료 컬렉션이나 보고가셈 ㅋㅋ [7] Lmm갤로그로 이동합니다. 20.08.06 76 0
413665 상대는 실버와 브론즈... [2] ㅋㅇ.갤로그로 이동합니다. 20.08.06 67 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2