기술 사업 및 스타트업 테크노에 대한 모든 것 Tae-yang (태양) 1월 25, 2025 0 Comments

윈-스테이의 타이 스테이 변형을이기는 기술, 잃어버린 시프트

저자 :

(1) Avrim Blum, 미국 일리노이 주 시카고의 Toyota Technological Institute;

(2) 미국 일리노이 주 시카고의 Toyota Technological Institute, Melissa Dutz.

링크 표

초록 및 1 소개

2 설정 및 2.1 행동 편향된 상대 모델

3 예선과 직관

4.1 근시 최고 응답자 및 4.2 도박꾼의 오류 상대

4.3 승리, 상대를 잃어 버린다

4.4 리더 상대와 4.5 최고 평균 상환 상대

5 일반화

5.1 기타 행동 편향된 전략

5.2 알려진 전략 세트에서 알려지지 않은 전략 활용

6 미래의 작업 및 참고 문헌

부록

A.1 Win-Stay Lose-Shift 변형 : 타이 스테이

A.2 추종자 변형 : 제한된 역사

A.3 타원체 실수 경계

A.4 최고 평균 상환 상대

A. 부록

A.1 Win-Stay Lose-Shift 변형 : 타이 스테이

증거. Win-Stay Lose-Shift 상대의 타이 스테이 변형은 승리 또는 동점 직후에 동일한 동작을 재생하고 손실 직후에 행동 주문에서 다음 조치로 전환합니다. 각 행동은 적어도 하나의 다른 행동에 의해 구타되기 때문에, 상대방은 1 단계에서 현재 행동에 대한 응답으로 우리가 플레이하는 행동 중 하나 후에 전환해야합니다 (우리는 각 행동을 연속적으로 재생하기 때문에). 상대방이 R 라운드에서 새로운 동작을 연주하기로 바꾸면 R -1 라운드에서 이겼으므로 최상의 응답이 정확합니다. 상대방은 항상 행동 순서에서 다음 행동으로 이동하고 N 시프트를 통해 모든 행동을 통해 이동하기 전에 모든 조치를 취하기 전에 조치 순서에서 첫 번째 조치로 되돌아갑니다. 따라서이 과정을 통해 우리는 모든 행동에 대한 최상의 응답을 기록하고 1 단계에서 올바른 조치 순서를 기록합니다. 우리는 상대방이 교대하기 위해 수행하는 각 행동에 대한 응답으로 대부분의 N 행동을 재생합니다. 상대방의 행동, 따라서 우리는이 단계에서 N (n -1) 손실 또는 유대를 초과하지 않습니다.

위의 끝에서 상대방은 행동 명령의 첫 번째 행동으로 되돌아 갔을 것입니다. 그러나 우리는 일반적으로 이러한 변화가 발생할 때 미리 알지 못하므로 우리가 연기 한 조치 (일부 a)는 그것에 대한 최상의 응답이거나 그렇지 않을 수도 있으므로 상대방이 머물 것인지 아니면 확신 할 수 없습니다. 옮기다. 반복적으로 플레이함으로써 상대방은 결국 두 번의 행동을 할 것입니다. 이것은 각 행동이 적어도 하나의 다른 행동과 그 자체로 연결되기 때문에 N 라운드 내에서 발생합니다. 그러나 상대방이 변화하는 동안 우리는 승리해야하므로 상대방이 마침내 2 번 연속으로 행동을 할 때 2 손실이나 관계 만 발생합니다.

우리는 상대방이 묶거나 승리하면서 2 라운드를 마쳤으므로 그들은 다음 라운드에서 다시 그들의 행동을 반복 할 것입니다 (b). 우리는 3 단계에서 B에 기록 된 최고의 응답을 연주함으로써 그 라운드에서 승리합니다.

4 단계가 시작될 때, 우리는 이전 라운드에서 우승했고 상대방이 순서대로 다음 조치로 전환 할 것임을 알기 때문에 올바르게 예측합니다 (우리는 올바르게 기록한 것을 보여주었습니다). 우리는 우리가 올바른 최고의 응답을 녹음했다는 것을 앞서 보여 주었으므로, 우리는 예측 된 행동에 기록 된 최고의 응답을 플레이함으로써 승리합니다. 남은 라운드마다 동일한 조건이 유지되므로 남은 라운드에서 승리합니다.