Главная » Хабрахабр » [Перевод] Математика апокалипсиса: теория игр и карибский ядерный кризис

[Перевод] Математика апокалипсиса: теория игр и карибский ядерный кризис

image

Теория ходов

«Мы сыграли в гляделки, и, по-моему, противник моргнул», — сказал государственный секретарь США Дин Раск на пике кубинского ракетного кризиса в октябре 1962 года. Он имел в виду сигналы, которые подавал Советский Союз, желая разрешить самую опасную ядерную конфронтацию между двумя сверхдержавами, которую многие аналитики интерпретировали как классический пример игры в ядерного «цыплёнка» (на русском аналог этой игры называется «ястребы и голуби»).

Игроками могут быть водители, приближающиеся друг к другу на узкой дороге, каждый из который имеет выбор — свернуть, чтобы избежать столкновения, или не сворачивать. Игра в «цыплёнка» обычно используется для моделирования конфликтов, в которых каждый из игроков взял курс на столкновение. Цель игры была в том, чтобы не нажать на тормоза первым и не превратиться таким образом в «цыплёнка», и в то же время не свалиться с обрыва. В рассказе «Бунтарь без причины», который позже был переделан в фильм с участием Джеймса Дина, водителями были два подростка, но они ехали не друг на друга, а к обрыву.

Другая игра более точно описывает действия лидеров США и Советского Союза, но даже для этой игры стандартная теория игр не полностью описывает доступные им варианты выбора. Хотя с виду карибский ракетный кризис похож на игру в «цыплёнка», на самом деле он плохо моделируется этой игрой.

Что ещё более важно, эта теория проливает свет на динамику игры, основываясь на предположении, что игроки думают не только о непосредственных последствиях их действий, но и об их влиянии на игру в будущем.
Я использую карибский ядерный кризис, чтобы проиллюстрировать отдельные части этой теории, которая не просто является абстрактной математической моделью, но и отражает выбор, сделанный в реальной жизни, мыслительные процессы, которые к нему привели, а также объясняет действия живых игроков из плоти и крови. С другой стороны, воспроизводит или предсказывает прошлое действий лидеров «теория ходов» (theory of moves), основанная на теории игр, но радикально меняющая стандартные правила игры. Особый советник президента Джона Кеннеди Теодор Соренсен на самом деле использовал терминологию «ходов», описывая обсуждения исполнительного комитета (Excom, Executive Committee) главных советников Кеннеди во время кубинского ракетного кризиса:

«Мы обсуждали реакции Советов на любые возможные ходы Соединённых Штатов, нашу реакцию на эти действия Советов, и так далее, пытаясь дойти по каждому из этих путей до логического завершения».

Классическая теория игр и ядерный кризис

Теория игр — это область математики, изучающая принятие решений в социальных взаимодействиях. Она применяется к ситуациям (играм), в которых двое или более людей (называемых игроками) выбирают из двух или более способов действий (называемых стратегиями). Возможные результаты игры зависят от действий, выбранных всеми игроками, и могут оцениваться по порядку предпочтительности для каждого игрока.

Это справедливо, когда ни один из игроков, отклонившись от своей стратегии, не сможет добиться лучших результатов. В некоторых играх на двух игроков и с двумя стратегиями существуют стратегии игроков, являющиеся в некотором смысле «стабильными». Равновесия Нэша не обязательно ведут к наилучшим результатам для одного или даже двоих игроков. Такие две стратегии вместе называются равновесием Нэша, в честь математика Джона Нэша, получившего в 1994 году Нобелевскую премию по экономике за свою работу в области теории игр. (Хотя, как показал Нэш, они всегда существуют в кардинальных играх, но равновесие Нэша в таких играх может включать в себя «смешанные стратегии», о которых я расскажу ниже.) Более того, в играх, которые можно проанализировать и где игроки могут устанавливать только ранг результатов («ординальные игры»), но не могут связывать с ними численные значения («кардинальные игры») — они могут и не существовать.

Целью Соединённых Штатов было немедленное перемещение советских ракет, и для её достижения высшее руководство США серьёзно рассматривало две стратегии [см. Кубинский ядерный кризис был инициирован попыткой Советского Союза в октябре 1962 года установить на Кубе ядерные баллистические ракеты средней и промежуточной дальности, способные нанести удар по большой части США. рисунок 1]:

  1. Морская блокада (B), или, как её завуалированно называли, «карантин», для предотвращения доставки новых ракет, за которой потенциально могло последовать более серьёзное действие, которое вынудило бы Советский Союз убрать уже установленные ракеты.
  2. «Хирургический» авиаудар (A) для уничтожения уже установленных ракет, насколько это было возможно, за которым потенциально могло последовать вторжение на остров.

Перед руководством Советского Союза открывались следующие альтернативы:

  1. Отзыв (W) своих ракет.
  2. Сохранение (M) ракет на острове.

Советский Союз (СССР)

Отзыв (W)

Сохранение (M)

Соединённые штаты (США)

Блокада (B)

Компромисс (3,3)

Победа Советов, поражение США (2,4)

Авиаудар (A)

Победа США, поражение Советов (4,2)

Ядерная война (1,1)

Рисунок 1: кубинский ядерный кризис как игра в «цыплёнка»

Равновесие Нэша выделено подчёркиванием. Ключ: (x, y) = (выигрыш США, выигрыш Советов): 4=наилучший; 3=чуть хуже наилучшего; 2=чуть лучше наихудшего; 1=наихудший.

Эти стратегии можно считать альтернативными программами действий, которые могут выбирать две стороны, или «игроки» в терминологии теории игр. Они ведут к четырём возможным результатам, которые игроки должны оценить по рангу следующим образом: 4=наилучший; 3=чуть хуже наилучшего; 2=чуть лучше наихудшего; 1=наихудший. То есть чем больше число, тем больше выигрыш; но выигрыши только ординальны, то есть они обозначают только порядок выигрышей от лучшего к худшему, но не до той степени, в которой игрок предпочтёт один результат другому. Первое число в каждом из парных результатов — это выигрыш игрока в по горизонтали (США), второе число — это выигрыш игрока по вертикали (СССР).

Обе стороны рассматривали больше, чем две альтернативы из списка, а также у каждого из них было несколько вариаций. Не нужно и говорить, что выборы стратегии, вероятные результаты и связанные с ними выигрыши, показанные на рисунке 1, дают только общий скелет картины кризиса, разворачивавшегося на протяжении тринадцати дней. Это требование было публично проигнорировано США. Советы, например, требовали отзыва американских ракет из Турции в качестве quid pro quo за отзыв собственных ракет с Кубы.

Кроме того, они согласны с тем, что ни одна из сторон не стремилась делать никаких непоправимых шагов, как один из играющих в «цыплёнка» водителей, демонстративно сорвавший на виду другого водителя руль своей машины, исключив таким образом возможность свернуть. Тем не менее, большинство наблюдателей за этим кризисом полагало, что две сверхдержавы взяли курс на столкновение, что и дало название одной из книг, посвящённой этому ядерному противостоянию.

Но для игры в «цыплёнка» это не является прогнозом по теории игр, потому что связанные с компромиссом стратегии не составляют равновесия Нэша. Хотя в каком-то смысле США «выиграли», заставив Советы отозвать свои ракеты, первый секретарь СССР Никита Хрущёв в то же время выудил у президента Кеннеди обещание не нападать на Кубу, поэтому можно считать такой конечный результат своего рода компромиссом.

Эта стратегия нестабильна, поскольку у обоих игроков есть стимул отклонения к своей более воинственной стратегии. Чтобы убедиться в этом, предположим, что игра находится в позиции компромисса (3,3), то есть США блокируют Кубу, а СССР отзывает свои ракеты. (Такая классическая схема теории игр не даёт нам никакой информации о том, какой результат будет выбран, потому что таблица выигрышей симметрична для обоих игроков. Если бы США отклонилась, сменив свою стратегию на авиаудар, то игра сместилась бы к (4,2), улучшив полученный США выигрыш; если бы СССР отклонился, сменив стратегию на сохранение ракет, то игра сместилась бы к (2,4), давая СССР выигрыш 4. Это частая проблема интерпретации результатов теоретического анализа игр, где может возникать несколько позиций равновесия.) Наконец, если игроки получат взаимно наихудший результат (1,1), то есть ядерную войну, то очевидно, что оба будут желать отклониться от него, что сделает связанные с ним стратегии, например (3,3), нестабильными.

Теория ходов и ядерный кризис

Использование игры в «цыплёнка» для моделирования ситуации наподобие карибского кризиса проблематично не только потому, что компромиссный результат (3,3) нестабилен, но и потому, что в реальном мире две стороны не выбирают свои стратегии одновременно или независимо друг от друга, как предполагается в описанной выше игре в «цыплёнка». Советы отреагировали конкретно на блокаду, после того, как она была объявлена Соединёнными Штатами. Более того, тот факт, что США рассматривали возможность эскалации конфликта по крайней мере вплоть до авиаудара, говорит о том, что изначальное решение о блокаде не считалось окончательным. То есть после объявления блокады США всё равно рассматривала возможные варианты выбора стратегии.

В наиболее серьёзном ухудшении отношений ядерного сдерживания между сверхдержавами, сохранявшегося со времён Второй мировой, каждая из сторон осмотрительно прощупывала свой путь, делая угрожающие шаги. Следовательно, эту игру лучше моделировать как последовательные переговоры, в которых ни одна из сторон не сделала выбор «всё или ничего»; обе рассматривали альтернативы, в частности на случай того, если противоположная сторона не ответит способом, который другая сторона сочтёт подходящим. Он считал, что США, столкнувшись с fait accompli (со свершившимся фактом), удержится от нападения на Кубу и не решится на другие суровые ответные меры. Советский Союз, до кризиса опасаясь вторжения на Кубу со стороны США, а также стремясь поддержать свою стратегическую позицию в мире, сделал вывод, что риск установки ракет на острове стоит свеч. Даже если установка ракет инициирует кризис, Советы не считали вероятность войны высокой (во время кризиса президент Кеннеди оценивал вероятность войны в интервале от 1/3 до 1/2), то есть риск спровоцировать США был бы для них рациональным.

Я предлагаю альтернативную модель карибского ядерного кризиса в форме игры, которую назову «Альтернатива». Есть обоснованные причины считать, что высшее руководство США не рассматривало конфронтацию как игру в «цыплёнка», по крайней мере, в том, как оно интерпретировало и ранжировало возможные результаты. рисунок 2]. В ней я сохраню те же стратегии игроков, что и в «цыплёнке», но предположу другое ранжирование и интерпретацию результатов Соединёнными Штатами [см. Такое ранжирование и интерпретации лучше соответствуют историческим документам, чем параметры игры в «цыплёнка», насколько можно судить по заявлениям, сделанным президентом Кеннеди и Военно-воздушными силами США, а также по видам и количеству ядерного вооружения, имевшегося у СССР (подробнее об этом ниже).

  1. BW: выбор Соединёнными Штатами блокады и отзыва ракет Советским Союзом по-прежнему считается компромиссом для обоих игроков — (3,3).
  2. BM: перед лицом блокады США сохранение Советами ракет на Кубе ведёт к победе СССР (наилучшему для него результату) и капитуляции США (наихудшему для них результату) — (1,4).
  3. AM: авиаудар, уничтожающий сохранённые Советским Союзом ракеты, рассматривается «почётным» для США действием (наилучшим для них результатом) и поражением Советов (их наихудшим результатом) — (4,1).
  4. AW: авиаудар, уничтожающий отозванные Советами ракеты, считается «позорным» действием США (результатом чуть лучше наихудшего для них) и поражением Советов (результатом чуть лучше наихудшего) — (2,2).

Советский Союз (СССР)

Отзыв (W)

Сохранение (M)

Соединённые штаты (США)

Блокада (B)

Компромисс
(3,3)

Победа Советов, капитуляция США
(1,4)

Авиаудар
(A)

«Позорное» действие США, поражение Советов (2,2)

«Почётное» действие США, поражение Советов (4,1)

Рисунок 2: Карибский ядерный кризис как «Альтернатива»

Неблизорукие равновесия выделены полужирным. Ключ: (x, y) = (выигрыш для США, выигрыш для СССР), 4 = наилучший; 3 = чуть хуже наилучшего; 2 = чуть лучше наихудшего; 1 = наихудший. Стрелками показано направление цикла.

Даже несмотря на то, что авиаудар в обоих случаях приводит к поражению Советов, (2,2) и (4,1), я интерпретирую (2,2) как наносящий наименьший ущерб СССР, потому что с точки зрения остального мира авиаудар может рассматриваться как вопиюще чрезмерной реакцией, а потому «позорным» действием США в случае существования чёткого свидетельства того, что Советы находятся в процессе отзыва ракет. С другой стороны, при отсутствии таких свидетельств авиаудар США, за которым, возможно, последовало бы вторжение, было бы действием по вытеснению советских ракет.

В ответ на письмо Хрущёва Кеннеди сообщает: Заявления высшего руководства США подтверждают соответствие «Альтернативе».

«Если вы согласитесь на демонтаж этих систем вооружения с Кубы… мы, со своей стороны, согласимся… (а) безотлагательно снять действующие в данный момент карантинные меры и (б) гарантировать ненападение на Кубу»,

что соответствует «Альтернативе», поскольку (3,3) для США предпочтительнее, чем (2,2), в то время как (4,2) в «цыплёнке» не предпочтительнее (3,3).

По словам Роберта Кеннеди, близкого советника своего брата в то время, Если бы Советы сохранили свои ракеты, то США предпочли бы блокаде авиаудар.

«Если они не уберут эти базы, мы уберём их»,

что соответствует «Альтернативе», так как США предпочтут результат (4,1) результату (1,4), а не результат (1,1) результату (2,4) по игре в «цыплёнка».

В частности, Роберт Кеннеди заявил, что немедленное нападение выглядело бы как «Перл-Харбор наоборот, и оно бы очернило имя Соединённых Штатов на страницах истории», что соответствует «Альтернативе», потому что США ранжировали AW чуть лучшим, чем наихудший результат (2) — как «позорное» действие Штатов, а не как лучший (4) — победу США — в «цыплёнке». Наконец, было хорошо известно, что многие советники президента Кеннеди с большой неохотой рассматривали инициацию нападения на Кубу, не исчерпав менее воинственных способов действий, которые бы могли привести к отзыву ракет с меньшим риском и большим соответствием идеалам и ценностям Америки.

Как и в «цыплёнке», связанные с этим результатом стратегии не являются равновесием Нэша, потому что у Советов есть немедленный стимул перейти от (3,3) к (1,4). Хотя «Альтернатива» и обеспечивает более реалистичное представление о восприятии участников игры, чем «цыплёнок», стандартная теория игр почти ничем не помогает в объяснении того, как был достигнут и почему оказался стабильным компромисс (3,3).

Это такие стратегии, в которых игроки рандомизируют свои выбранные действия, выбирая каждую из своих двух так называемых чистых стратегий с заданными вероятностями. Однако в отличие от «цыплёнка», в «Альтернативе» вообще нет результатов, являющихся равновесиями Нэша, за исключением «смешанных стратегий». Но для анализа «Альтернативы» невозможно использовать смешанные стратегии, потому что для выполнения подобного анализа к каждому результату необходимо привязать численные выигрыши, а не ранжированные по порядку.

Следование по этим стрелкам означает, что данная игра циклична, и у одного игрока всегда есть немедленный стимул отклониться от каждого состояния: у Советов — от (3,3) к (1,4); у США — от (1,4) к (4,1); у Советов — от (4,1) к (2,2); и у США — от (2,2) к (3,3). Нестабильность результатов в «Альтернативе» лучше всего заметна при изучении цикла предпочтений, обозначенных стрелками, идущими в этой игре по часовой стрелке. У нас снова получилась неопределимость, но не из-за наличия нескольких равновесий Нэша, как в «цыплёнке», а потому, что в «Альтернативе» равновесий между чистыми стратегиями нет.

Правила игры в теории ходов

Тогда как же нам объяснить выбор (3,3) в «Альтернативе», а заодно и в «цыплёнке», учитывая неравновесное состояние по стандартной теории игр? Оказывается, что (3,3) является в обеих играх «неблизоруким равновесием» (nonmyopic equilibrium), а в «Альтернативе», согласно теории ходов (theory of moves) (TOM) является единственным таким равновесием. Постулируя, что игроки продумывают наперёд не только ближайшие последствия ходов, но и последствия контрходов в ответ на эти ходы, контр-контрходов и так далее, TOM расширяет стратегический анализ конфликта в более отдалённое будущее.

Но дерево игры постоянно изменяется при каждом развитии кризиса. Разумеется, теория игр позволяет учитывать такое мышление благодаря анализу «деревьев игры», в которых описываются последовательные действия игроков с течением времени. По сути, TOM, описывая выигрыши в одной игре, но позволяя игрокам делать последовательные вычисления ходов в разные позиции, добавляет к предлагаемой классической теорией игр экономике описаний неблизорукое мышление. В противоположность этому, в «Альтернативе» конфигурация выигрышей остаётся более-менее постоянной, хотя там игроки находятся в изменённой матрице.

Хотя правила TOM применимы ко всем играм между двумя игроками, здесь я буду считать, что у каждого из игроков есть всего по две стратегии. Основатели теории игр Джон фон Нейман и Оскар Моргенштерн определили игру как «описывающую её совокупность правил». Четыре правила игры TOM описывают возможные варианты выбора игроков на каждом этапе игры:

Правила игры

  1. Игра начинается с исходного состояния, заданного пересечением строки и столбца в матрице выигрышей.
  2. Любой из игроков может в одностороннем порядке изменить свою стратегию, то есть сделать ход, и перевести таким образом исходное состояние в новое состояние в той же строке или столбце, что и исходное состояние. Меняющий стратегию игрок называется игроком 1 (P1).
  3. Игрок 2 (P2) может ответить,=, в одностороннем порядке изменив свою стратегию, таким образом переведя игру в новое состояние.
  4. Ответы продолжают чередоваться, пока игрок (P1 или P2), который должен ходить следующим, не меняет свою стратегию. Когда это происходит, игра завершается в своём финальном состоянии, которое является результатом игры.

Правило завершения

  1. Игрок не переместится из исходного состояния, если его ходы (i) ведут к менее предпочтительному результату, или (ii) возвращают игру к исходному состоянию, делая это состояние результатом.

Правило преимущества

  1. Если для одного игрока рационально переместиться, а для другого — не перемещаться из исходного состояния, то ход имеет преимущество: он отменяет пребывание на месте, поэтому результат будет вызван игроком, совершившим ход.

Заметьте, что последовательность ходов и контрходов строго чередуется: допустим, сначала ходит игрок по горизонтали, затем игрок по вертикали, и так далее, пока один из игроков не остановится, и на этом этапе состояние станет финальным, а значит, результатом игры. Я предполагаю, что выигрыш игроков не накапливается при нахождении в состоянии, если только оно не становится результатом игры (который может быть и исходным состоянием, если игроки решат не перемещаться из него).

Но во многих играх реального мира выигрыши сложно оценить количественно или суммировать по состояниям, в которых они находились. Чтобы предположить противоположное, необходимо, чтобы выигрыши были численными, а не просто ранжированными, тогда игроки могли бы накапливать их, проходя через состояния. В политике, например, выигрыш для большинства политиков заключается не в проведении кампаний, ведь они трудоёмки и затратны, а в победе. Более того, во многих играх большая награда чрезвычайно сильно зависит от достигнутого финального состояния, а не от того, как оно было достигнуто.

Вместо того, чтобы начинать с выбора стратегии, TOM предполагает, что на начало игры игроки уже находятся в каком-то состоянии и получают выигрыш из этого состояния, только если останутся в нём. Правило 1 сильно отличается от соответствующего правила игры в стандартной теории игр, где игроки одновременно выбирают стратегии из матричной игры, определяющей её результат. На основании этих выигрышей они по отдельности должны решить, стоит ли менять это состояние, пытаясь добиться лучшего.

Но если, допустим, две страны координируют свои действия, например, соглашаются подписать договор, то важный стратегический вопрос заключается в том, какие индивидуальные вычисления привели их к этой ситуации. Разумеется, некоторые решения принимаются игроками коллективно, и в таком случае разумно говорить, что они выбирают стратегии с нуля, или одновременно, или координируя свои действия. Именно для раскрытия этих переговоров и лежащих в их основе расчётов и предназначена TOM. Формальное действие по совместному подписанию договора является кульминацией их переговоров и не раскрывает процесс ходов-контрходов, предшествовавших этому подписанию.

Со временем они попали в новое состояние, после, допустим, переговоров о подписании, и в этом состоянии для обеих стран рационально подписать ранее обговоренный договор. Продолжим этот пример: стороны, подписывающие договор, находились в неком предыдущем состоянии, из которого оба решили переместиться — или, вероятно, только одна решила переместиться, а другая не могла препятствовать этому ходу (правило преимущества).

TOM стремится стратегически объяснить развитие (врЕменное) состояний, которое привело к привело к (более постоянному) результату. Как и в случае с подписанием договора, почти все результаты наблюдаемых игр имеют свою историю. Следовательно, партия игры начинается в исходном состоянии, в котором игроки получают выигрыши, только если остаются в этом состоянии и оно становится финальным состоянием, или результатом, игры.

Они перемещаются именно потому что вычислили, что могут улучшить ситуацию, изменив стратегию, ожидая лучшего результата, когда процесс ходов и контрходов наконец придёт к завершению. Если они не остаются в этом состоянии, то по-прежнему знают, какие бы выигрыши получили, если бы остались в состоянии; поэтому они могут произвести рациональный расчёт преимуществ сохранения состояния или перемещения из него. Когда партия начинается в другом состоянии, игра будет другой, но конфигурация выигрышей останется прежней.

Но когда рационально будет не продолжать движение, или вообще не перемещаться из исходного состояния? Правила 1 — 4 (правила игры) ничего говорят не о том, что заставляет игру завершиться, а только о том, когда она завершится: завершение происходит, когда «игрок, который должен ходить следующим, не меняет свою стратегию» (правило 4).

Условие (i) объяснений не требует, но условие (ii) нужно обосновать. Правило завершения гласит, что это происходит, когда игрок не перемещается из исходного состояния. В конце концов, в чём смысл затевать весь процесс ходов-контрходов, если партия просто вернётся на «первую клетку поля», с учётом того, что по пути к результату игроки не получат никаких выигрышей? Оно гласит, что если после хода P1 для партии игры будет рационально вернуться по циклу к исходному состоянию, то P1 не будет перемещаться.

Обратная индукция

Чтобы определить, на чём завершится партия, когда хотя бы один игрок захочет переместиться из исходного состояния, я предположу, что игроки используют обратную индукцию. Это процесс рассуждения, в котором игроки, проходя назад от последнего возможного хода игры, предвидят рациональные действия друг друга. Для этого я предположу, что каждый из них имеет полную информацию о предпочтениях другого, поэтому каждый может вычислить рациональные действия другого игрока, а также свои собственные, относительно решения о том, нужно ли перемещаться из исходного состояния, или любого последующего состояния.

После обнаружения ракет и наложения Штатами блокады игра находилась в состоянии BM, наихудшем для США (1) и наилучшем для Советского Союза (4). Чтобы проиллюстрировать обратную индукцию, давайте снова рассмотрим игру «Альтернатива» на рисунке 2. Теперь рассмотрим развитие ходов по часовой стрелке, которое могут инициировать США, переместившись в AM, после чего СССР переходит в AW, и так далее, предполагая, что игроки могут предугадать вероятность того, что игра совершит один полный цикл и вернётся к исходному состоянию (состоянию 1):

Состояние 1

Состояние 2

Состояние 3

Состояние 4

Состояние 1

США начинают

США (1,4)

СССР (4,1)

США (2,2)

→ |

СССР (3,3)

(1,4)

Выжившее

(2,2)

(2,2)

(2,2)

(1,4)

Это дерево игры, только нарисованное не вертикально, а горизонтально. Выжившее — это состояние, выбранное на каждом этапе в результате обратной индукции. Оно определяется возвратом из того состояния, в котором игра теоретически может завершиться (состояние 1, при завершении цикла).

Очевидно, что СССР предпочтёт результат (1,4) результату (3,3), поэтому (1,4) указан как выжившее состояние под (3,3): так как СССР вернёт процесс обратно к (1,4), если он достигнет (3,3), то игроки знают, что если процесс ходов-контрходов достигнет этого состояния, то результатом будет (1,4). Предположим, что чередующиеся ходы игроков в «Альтернативу» делались по часовой стрелке от (1,4) к (4,1), потом к (2,2) и к (3, 3), и на этом этапе СССР в состоянии 4 должен был решать, остановиться ли на (3,3) или завершить цикл, вернувшись к (1,4).

Так как США предпочтут (2,2) выжившему в (3,3) состоянию, а именно (1,4), ответом будет «нет». Зная это, будут ли США в предыдущем состоянии (2,2) перемещаться в (3,3)? Следовательно (2,2) становится выжившим состоянием, когда США должны выбрать между остановкой в (2,2) и перемещением в (3,3) — что, как я только что показал, превратится в (1,4) после достижения (3,3).

Аналогично, в исходном состоянии (1,4), поскольку США предпочтут предыдущее выжившее состояние (2,2) состоянию (1,4), то в этом состоянии выжившим тоже будет (2,2). В предыдущем состоянии (4,1) СССР предпочтёт переместиться к (2,2), а не останавливаться в (4,1), поэтому (2,2) снова будет выжившим, если процесс достигнет (4,1).

То есть вернувшись обратно от выбора СССР о завершении или незавершении цикла из (3,3), игроки могут обратить процесс, и заглядывая вперёд, определить, что будет рационально сделать для каждого из них. Тот факт, что (2,2) является выжившим в исходном состоянии (1,4) означает, что для США рационально переместиться в (4,1), а СССР затем перейти в (2,2), где процесс остановится, делая (2,2) рациональным выбором, если США сделают первый ход из исходного состояния (1,4). Я указываю, что для процесса рационально остановиться на (2,2), поставив вертикальную черту, препятствующую исходящей из (2,2) стрелке, и подчеркнув на этом этапе (2,2).

Может ли СССР, вместо того, чтобы позволить США инициировать процесс ходов-контрходов в состоянии (1,4), улучшить свою ситуацию, перехватив инициативу и двинувшись против часовой стрелки из своего наилучшего состояния (1,4)? Заметьте, что (2,2) в состоянии AM хуже для обоих игроков, чем (3,3) в состоянии BW. Ответ положительный, более того, в интересах США также позволить СССР начать этот процесс, как это видно на следующем развитии ходов от (1,4) против часовой стрелки:

Состояние 1

Состояние 2

Состояние 3

Состояние 4

Состояние 1

СССР начинает

СССР (1,4)

США (3,3)

→|

СССР (2,2)

США (4,1)

(1,4)

Выжившее

(3,3)

(3,3)

(2,2)

(4,1)

СССР, действуя «великодушно», перемещается из состояния победы BM (4) к компромиссу (3) в BW, и делает для США рациональным завершение игры в (3,3), что обозначено заблокированной стрелкой из состояния 2. Разумеется, именно это и произошло в кризисе, с угрозой дальнейшей эскалации со стороны США, в том числе вынужденного всплытия советских подводных лодок, а также авиаудара (ВВС США оценивали вероятность уничтожения всех ракет в 90%), став для Советов стимулом для отзыва всех своих ракет.

Применение TOM


Как и любая научная теория, расчёты TOM не могут принимать во внимание эмпирическую реальность ситуации. Например, во втором расчёте обратной индукции сложно представить перемещение Советского Союза из состояния 3 в состояние 4, включающее сохранение (через повторную установку?) ракет на Кубе после их отзыва и авиаудара. Однако, если переход в состояние 4, а позже обратно к состоянию 1 были исключены как невыполнимые, то результат был бы тем же: при выполнении обратной индукции в состоянии 3 для СССР будет рационально изначально переместиться в состояние 2 (компромисс), на котором игра остановится.

Так как для обеих сторон будет менее затратно, если Советский Союз станет инициатором компромисса, устраняя необходимость авиаудара, то неудивительно, что именно это и произошло. Компромисс также будет рациональным в первом расчёте обратной индукции, если тот же ход (возврат к сохранению ракет), который при этом развитии событий является переходом из состояния 4 в состояние 1, считается невыполнимым: выполняя обратную индукцию в состоянии 4, для США будет рационально продолжить эскалацию до авиаудара, чтобы вызвать ходы, приводящие игроков к компромиссу в состоянии 4.

Постулируя, что игроки продумывают наперёд не только ближайшие последствия ходов, но и последствия контрходов в ответ на эти ходы, контр-контрходов и так далее, она расширяет стратегически анализ конфликтов в более отдалённое будущее. Подведём итог: теория ходов превращает теорию игр в более динамичную теорию. Эти концепции и анализ проиллюстрированы множеством разных примеров, от конфликтов в Библии до современных споров и столкновений. TOM также использовалась для того, чтобы показать возможное влияние разных степеней применения силы (перемещений, приказов и угроз) на результаты конфликта, а также продемонстрировать то, как может воздействовать на выбор игроков дезинформация.

Дополнительное чтение

  1. «Theory of Moves», Steven J. Brams. Cambridge University Press, 1994.
  2. «Game Theory and Emotions», Steven J. Brams in Rationality and Society, Vol. 9, No. 1, pages 93-127, February 1997.
  3. «Long-term Behaviour in the Theory of Moves», Stephen J. Willson, in Theory and Decision, Vol. 45, No. 3, pages 201-240, December 1998.
  4. «Catch-22 and King-of-the-Mountain Games: Cycling, Frustration and Power», Steven J. Brams and Christopher B. Jones, in Rationality and Society, Vol. 11, No. 2, pages 139-167, May 1999.
  5. «Modeling Free Choice in Games», Steven J. Brams in Topics in Game Theory and Mathematical Economics: Essays in Honor of Robert J. Aumann, pages 41-62. Edited by Myrna H. Wooders. American Mathematical Society, 1999.

Об авторе

Стивен Дж. Брэмс (Steven J. Brams) — профессор политики в Нью-Йоркском университете. Он является автором и соавтором 13 книг по применению теории игр и теории социального выбора в голосованиях и выборах, переговорах и справедливости, международных отношениях, Библии и теологии. Его последние книги: Fair Division: From Cake-Cutting to Dispute Resolution (1996 год) и The Win-Win Solution: Guaranteeing Fair Shares to Everybody (1999 год) выпущены в соавторстве с Аланом Д. Тейлором. Он член Американской ассоциации развития науки, Общества «общественного выбора», стипендиат стипендии Гуггенхайма, приглашённый эксперт Фонда Рассела Сейджа и президент Международного Общества мирной науки.

Минутка заботы от НЛО

Этот материал мог вызвать противоречивые чувства, поэтому перед написанием комментария освежите в памяти кое-что важное:


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

[Перевод] Конфигурируйте Visual Studio в вашей организации с помощью .vsconfig

В Visual Studio 2017 Update 15.9 мы добавили возможность экспорта и импорта рабочей нагрузки и выбора компонентов в файл конфигурации установки Visual Studio. Разработчики могут импортировать эти файлы в новые или существующие установки. Проверка этих файлов в ваших исходных репозиториях ...

Тест-драйв nanoCAD СПДС Стройплощадка 8. Часть 1

Тест-драйв nanoCAD СПДС Стройплощадка 8 Мы начинаем публикацию тест-драйва по nanoCAD СПДС Стройплощадка. В первой части тест-драйва мы разберем работу со специальным инструментом Менеджер проектов, его основные функции и способы построения элементов стройгенплана. Во второй части тест-драйва мы рассмотрим построение ...