디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

Microsoft 마작 AI - Suphx 논문 리뷰 (1)

HES(222.107) 2020.08.11 20:30:02
조회 1994 추천 15 댓글 13
														

Q) 이딴 거 왜씀 ?

A) 작혼하다가 은탁가고 싶은데 실력이 ㅈ밥이라 걍 인공지능으로 뚫으려고 함.

 +) 구글링해봐도 이 논문 한국어로 요약된게 없어서 내가 만든다.


이미 ㅈ공지능이 바둑, 체스, 장기뿐만 아니라 도타, 스타2같은 게임까지 쳐먹었지만

마작은 위에 설명한 게임들보다 ㅈ공지능으로 정복하는게 어려우면 어려웠지 쉬운 게임은 아니다



마작이 다른 게임들보다 ㅈ공지능 만들기 어려운 이유


1. 한 판만 이기면 되는게 아니라, 최종적으로 이겨야한다.

   전술적으로 지는 것도 가능하기 때문에 여러판 진행하는 가운데 최종점수를 높히는 방향으로 진화를 해야함.


2. 나를 제외한 적대 player들의 13개, 패산의 70개 + (14-a)개의 패가 비공개이기때문에 예측을 해야함.

   바둑, 장기, 체스 등에서는 경험하지 못하는 문제


3. 치 퐁 캉 같은 ㅈ같은 시스템때문에 게임 중간중간에 예측하는 게임 트리가 매우 불안정함.


결론은 CNN(convolutional neural networks) 모델을 써서 프로 마작 player들의 패보를 기반으로 지도학습(Supervised)을 하고

Reinforcement learning(RL: 강화학습)을 통해서 혼자서 존나 두면서 진화했다고 한다.

-> 쉽게 말해서 일단 프로들 기보 흉내내게 만든 다음에 혼자서 시간과 정신의 방에서 수련함

   T.M.I - 프로들 기보 흉내만 내는 정도로는 아마추어한테도 개 쳐발림 (이유가 궁금하면 인공지능 공부하던가)



Suphx 만들면서 신경썻던 부분들


1. 이번판의 결과가 최종 스코어에 어떤 영향을 미칠지에 대해서 계산하는 부분.


2. 패산의 패와 상대방의 패를 예측하는 부분 (이게 씹 사기라고 한다)

※ This oracle agent is a super strong Mahjong AI due to the (unfair) perfect information access

위에가 원문인데 직역하면 이 예언자 에이전트는 퍼펙트한 정보 Access(예측)이 가능한 (unfair)치트급 슈퍼 스트롱 마작 AI 라고 적혀있음


3. Monte-Carlo tree 라고 게임 AI에서 경우의 수 계산하는 모델인데

그냥 쓰면 치, 퐁, 캉 때문에 실제 게임에서 연산하는데 시간을 많이 잡아먹어서 parametric Monte-Carlo policy adaptation(pMCPA)라고 지들이 개량했다고 함


그래서 Suphx는 총  5개의 모델로 되있음


Discard model = 뭐 버릴지 생각하는 세끼

Riichi model = 리치할지 말지 생각하는 세끼

Chow model = 치할지 말지 생각하는 세끼

Pong model = 퐁할지 말지 생각하는 세끼

Kong model = 캉할지 말지 생각하는 세끼


알파고는 ㅈㄴ 큰 하나의 모델로 되있거랑 비교하면 질보다 양인 듯

아마 처음에 ㅈㄴ 큰 하나의 모델로 했는데 그것보다 이게 훨씬 나았지 않았을까 예상해봄



Suphx의 Decision Flow(의사 결정 방법)


viewimage.php?id=20bcda27ee&no=24b0d769e1d32ca73ced8ffa11d02831dfaf0852456fb21930271cc4cf87ae32d5e02ba605ae561015d397f5500c66e957e5b4c877a88f7f15743d0bec4e6d26



- 내가 화료가능할 경우


1. 마지막 라운드가 아니다 -> 승리 선언

2. 마지막 라운드다.

    1. 점수 계산했는데 승리 선언해도 꼴지다 -> 승리 선언 안함

    2. 3등이라도 가능하다 -> 승리 선언


- 내가 패산에서 패를 뽑았을 경우


화료함 -> 위에 내가 화료가능할 경우 참고

그 외의 경우 위에서 부터 순서대로 탐색


1. 안깡 가능하면 캉 모델님이 캉 할지말지 고민하고 안깡 한다면 -> 패를 뽑았을 경우로 돌아간다.

2. 가깡 가능하면 캉 모델님이 창캉 가능성을 포함해서 캉 할지말지 고민하고 가깡한다면 -> 패를 뽑았을 경우로 돌아간다.

3. 리치 가능할 경우 리치 모델님이 열심히 생각해서 리치할지 말지 고민함.

4. 폐기 모델님이 뭐 버릴지 고민함


- 다른 놈이 패를 버렸을 경우


1. 아무것도 할 수 없다면 아무것도 하지 않는다.

2. 론 가능하면 -> 내가 화료가능할 경우로 간다.

3. (치 퐁 캉) 가능하면 (치, 퐁, 캉) 모델들이 각각 confidence score(직역하면 자신감 점수)를 계산해서 알려준다.

※ Score가 가장 높은 모델의 선택을 택하거나 셋 다 낮으면 아무것도 안할 듯


실제로 마작을 두다보면 위의 경우의 수 말고는 없다. 모든 케이스 커버 가능


어떻게 보면 위의 순서도는 마작갤럼들한테는 너무 당연한 내용같을거지만

마작 ㅈ도 모르는 ㅈ공지능 연구원들한테는 아 게임이 이렇게 진행되는구나 알려주는 부분임


몇가지 궁금할 수 있는 부분


1. 이번판의 결과가 최종 점수에 어케 반영될지 존나 고민했다고 써있는데 왜 꼴지만 아니면 승리 선언하냐?

이미 승리 선언 가능하다는게 지가 원하는 결과대로 패를 구성했다는 거임. 마지막 라운드인데 꼴지면 꼴지를 면하는 패를 구성하는 중일텐데 ㅈ같은 패가 쯔모되면 걍 버린다는거 ㅈ공지능님은 다 계획이 있으시단다.


2. 안보이는 패들을 예측한다고 하는데 5개 모델이 각각 예측하는거냐?

맞는거 같음. 각각의 모델이 모든 패를 예측하는 건 아니고 각 모델들이 내 패 상황에 따라(중요) 추적하는 패가 따로 있는거 같음.

※ 아직 뒷부분 안읽어서 잘 모름 2편을 기다리라구



추천 비추천

15

고정닉 7

0

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
AD 호요버스 신작 <젠레스 존 제로> 7월 4일 오픈! 운영자 24/06/05 - -
414274 예전에 카이지랑 아카기나오던 모바일 마작겜 아는사람? ㅋㅋㅋ(175.124) 20.08.06 63 0
414273 개사기 배패받고 힐링하고 옴 [15] ㅇㅇ갤로그로 이동합니다. 20.08.06 799 22
414272 이 ㅆ;ㅂ새기 머임 [12] 길가던댕댕이갤로그로 이동합니다. 20.08.06 105 0
414271 도라를 퍼다주는 병신이 있다!!!??? ㅇㅇ(112.186) 20.08.06 53 0
414269 55981 와주십숑 뿌~ [1] 도라스케갤로그로 이동합니다. 20.08.06 31 0
414268 3일에 걸쳐서 [3] Voidness갤로그로 이동합니다. 20.08.06 36 0
414267 키보드업으니까 [10] 길가던댕댕이갤로그로 이동합니다. 20.08.06 69 0
414266 그럼 이런거 올려야지 [5] 신시_★갤로그로 이동합니다. 20.08.06 78 0
414265 마작은언제나최악을생각하고두셈 [4] RikaDesu갤로그로 이동합니다. 20.08.06 58 0
414264 작갤 좌표에 대한 고찰 [7] 모자1(121.136) 20.08.06 90 0
414263 아니~~ 별 이상한게 다 짤리네 [1] 신시_★갤로그로 이동합니다. 20.08.06 54 0
414262 고양이가 키보드 고장내서 [9] 길가던댕댕이갤로그로 이동합니다. 20.08.06 109 0
414261 4마내전잇냐 55981 2/4 [1] 도라스케갤로그로 이동합니다. 20.08.06 24 0
414258 바닥에 공탁금이랑 본장 점봉 좀 깔려있다고 [7] 다마맨갤로그로 이동합니다. 20.08.06 107 0
414256 여름을 즐기랬지 [9] 모자1(121.136) 20.08.06 116 1
414255 13면대기 다마타야하는이유 알려준다 [3] RikaDesu갤로그로 이동합니다. 20.08.06 84 0
414254 왔다 시발 [1] 8八8갤로그로 이동합니다. 20.08.06 81 0
414253 작호같은건 고수가 아님 [9] yunhd808갤로그로 이동합니다. 20.08.06 139 0
414252 시발 주말 반납각 뜸 [1] 다마맨갤로그로 이동합니다. 20.08.06 58 0
414251 차라리 삼마할시간에 렌탈치즈루갤로그로 이동합니다. 20.08.06 42 0
414250 작사달면 동탁가요 은탁가요? [2] ㅇㅇ(223.39) 20.08.06 70 0
414249 고수는 채소 작호3이야 [3] Cudo갤로그로 이동합니다. 20.08.06 69 0
414248 와 아무리 잘해봐야 3333하네 [1] 마작쓰레기겜갤로그로 이동합니다. 20.08.06 43 0
414247 작호2부터 고수라 할 수 있음 [8] 환타병속의프롤린갤로그로 이동합니다. 20.08.06 107 0
414246 아니삼마욕하는애들아진짜왜그러냐좀내말을들어봐 [4] RikaDesu갤로그로 이동합니다. 20.08.06 65 0
414244 오랜만에 돌아왔습니다.. [8] 이토-요-카도-갤로그로 이동합니다. 20.08.06 99 0
414243 금탁탈출 언제하냐 ㅌㄷ(223.62) 20.08.06 50 0
414242 코노마갤퇴갤 [3] Cudo갤로그로 이동합니다. 20.08.06 61 0
414241 역시 해저의 코로모 2542911234(223.38) 20.08.06 63 0
414240 띵작 [2] 신시_★갤로그로 이동합니다. 20.08.06 41 0
414239 리치 일부러 안거는경우도잇음? [2] ㅇㅇ(219.240) 20.08.06 86 0
414238 작호1까지: 초보 작호2이상:고수 [4] RikaDesu갤로그로 이동합니다. 20.08.06 99 0
414237 좆밥방송 킨다 주소댓링 [3] ㅋㅇ.갤로그로 이동합니다. 20.08.06 77 0
414236 작혼은 강등보호같은건 없나요 [3] ㅇㅇ(223.39) 20.08.06 91 0
414235 쿠레나이 ㅜㅜ [1] Cudo갤로그로 이동합니다. 20.08.06 48 0
414234 코노간 친구들 [3] 신시_★갤로그로 이동합니다. 20.08.06 70 0
414233 작호1이딱 제로섬아님? [1] ㅇㅇ(110.70) 20.08.06 79 0
414232 빨리 좆밥새끼들 방송키라고 [6] ㅇㅇ(110.70) 20.08.06 65 0
414230 코노마갤 입갤 [4] Cudo갤로그로 이동합니다. 20.08.06 84 0
414228 갤떡밥생각해서 오늘 코노서 노래나불러야지 [1] 토끼팀갤로그로 이동합니다. 20.08.06 29 0
414226 나에게 어지간히도 2등을 주기 싫었나봐 ㅇㅇ(110.70) 20.08.06 23 0
414225 작혼 랭크분포도가 어떻게 돼? [4] ㅇㅇ(223.39) 20.08.06 239 0
414224 여기가 코노마이너갤러리 맞죠 [6] -햄버거-갤로그로 이동합니다. 20.08.06 92 0
414223 신나는 강등전 방송 [1] koorinokaze갤로그로 이동합니다. 20.08.06 40 0
414221 오야카부리 삭제좀 ㅇㅇ(116.41) 20.08.06 30 0
414220 코노가는 넘들 [3] 신시_★갤로그로 이동합니다. 20.08.06 81 0
414219 오 좋아 좋아 30프로에서 많이 내려왔따 [1] ㅇㅇ(223.39) 20.08.06 52 0
414218 내 국사무쌍 돌려줘 ㅇㅇ(219.240) 20.08.06 49 0
414216 마갤러들 그래프빌런인데 도와줭 [4] ㅇㅇ(221.158) 20.08.06 116 0
414214 아 리치봉만 뺏겨서 3등하니까 넘모짱난닼ㅋ ㅁㅁ(14.40) 20.08.06 25 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2