Радиосон. Трактат о свободе воли - Пётр Гряденский
Шрифт:
Интервал:
Закладка:
Сами понятия адаптации и обучения изначально всегда связывались с поведением либо отдельных живых организмов, либо коллективов их. Сейчас уже стало обычным использовать эти понятия применительно к автоматическим системам, способным выполнять свои функции в условиях начальной неопределенности. Это не означает, конечно, что следует всегда отождествлять адаптацию и обучение в живых организмах с адаптацией и обучением в автоматических системах. Но, по-видимому, как замечает в своей работе «Адаптация и обучение в автоматических системах» Я. Цыпкин, «теория адаптации в автоматических системах в ряде случаев может оказаться полезной для объяснения удивительного поведения живых организмов».
Итак, в чем же заключается сущность адаптации? Когда робот попадает в изменяющуюся среду, он первоначально находится в состоянии неопределенности, поскольку не обладает достаточной априорной информацией о ней. В процессе адаптации происходит последовательное накопление текущей информации с целью устранения неопределенности, а за этим следует достижение определенного, обычно оптимального состояния. Для работы в изменяющейся среде робот должен постоянно получать о ней информацию и самостоятельно выбирать способ действия, необходимый для достижения цели. Таким образом, совершается выбор наиболее оптимального по целесообразности поведения.
Делая выборы и запоминая их, робот приобретает способность к обучению. Обучение происходит во время взаимодействия робота со средой, когда среда выдает ответные реакции на его поведение. В робототехнике под обучением понимается процесс выработки в системе той или иной реакции на внешние сигналы путем многократных воздействий на систему и внешней корректировки. Внешняя корректировка, или как ее еще называют, «система поощрений и наказаний», осуществляется «учителем», который сообщает системе дополнительную информацию о том, верна или неверна реакция системы. В роли «учителя» в общем случае выступает сама среда, которая воздействует на вход робота и формирует сигналы, в зависимости от которых изменяется его поведение.
Как известно, система поощрений и наказаний является проверенным средством модификации поведения животных и людей. У животных отбор целесообразных реакций происходит благодаря их подкреплению, то есть успешная реакция имеет большую вероятность последовательного воспроизведения. Наиболее показательным применением этой системы является процесс дрессировки, хорошо изученный зоопсихологами, во время которого происходит формирование и закрепление желательных условных рефлексов. При дрессировке обычно используются как наказание, так и поощрение. Первое устраняет нежелательные реакции, второе подкрепляет нужные. Для закрепления условных рефлексов можно обойтись исключительно наказаниями, поскольку отсутствие наказания может рассматриваться как поощрение. С технической точки зрения речь идет о минимизации потока воздействий на объект. По мере выработки нужных условных рефлексов количество наказаний минимизируется.
Когда знания зоопсихологов получили возможность реализации в автоматических системах, оказалось, что у роботов можно вырабатывать навыки и формировать условные рефлексы в точности как у собак. В робототехнике для описания процесса дрессировки обычно используются понятия штрафов и вознаграждений. Смысл реакции робота на сигналы штрафов и вознаграждений заключается в изменении значений вероятностей выполняемых действий. Целесообразность его поведения в некоторой среде заключается в увеличении числа благоприятных реакций и уменьшении числа реакций неблагоприятных.
В теории адаптивного управления система поощрений и наказаний была представлена точными математическими моделями. Их основа достаточно проста: при благоприятном поведении робота значение входного воздействия равняется нулю, а при неблагоприятном единице. На языке таких двоичных сигналов могут кодироваться различные входные последовательности. С помощью двоичного кода подкрепления реально записывать сложные поведенческие программы не только в электронной памяти роботов, но и в мозге высокоразвитых животных, включая человека, о чем недвусмысленно заявляли представители бихевиоризма. Сам процесс выработки условных рефлексов может подлежать формальному описанию на языке алгоритмов.
В классическом эксперименте Павлова с колокольчиком – пищеварительными рефлексами собак, алгоритм обусловливания мог быть записан приблизительно следующим образом: 1. Воспринимать раздражители (условный и безусловный). Перейти к следующему указанию. 2. Если происходит одновременное наступление безусловного и условного раздражителей, перейти к следующему указанию. В противном случае вернуться к указанию 1. 3. Добавить единицу к содержанию памяти (предполагается, что система, реализующая алгоритм, имеет память, в которой может храниться некоторое число, в начале действия алгоритма равное нулю). Перейти к указанию 4. 4. Сравнить содержимое памяти с заданным числом n. Если число в памяти больше n, перейти к следующему указанию, в противном случае – к указанию 1. 5. Придать условному раздражителю свойства безусловного. Работу алгоритма закончить.
Наиболее тщательным образом теоретические модели адаптивного поведения были разработаны отечественным ученым-кибернетиком М.Л. Цетлиным. Он занимался моделированием «коллективного поведения автоматов» и изучал типичные стратегии поведения в различных условиях случайной внешней среды. В подготовке экспериментальной базы для теории Цетлина значимую роль сыграли эксперименты бихевиористов по модификации поведения. В числе последних стоит упомянуть имя Торндайка, использовавшего в качестве случайной среды специально сконструированные лабиринты, по которым он гонял крыс и других мелких зверушек. Коридоры этих лабиринтов снабжались всевозможными приятными и неприятными для животных раздражителями, а стратегия их поведения, в общем случае, сводилась к тому, чтобы избегать наказания и приобретать вознаграждения.
Когда Цетлин решил смоделировать поведение зверушек в лабиринте, он сумел высчитать, что решение о маршруте движения «принимает» за них механизм случайного равновероятного выбора. В дальнейшем дело стояло только за техническим приложением результатов этого моделирования. Отечественные кибернетики увлекались тем, что придумывали коллективные игры для своих автоматов, в которых те порой проявляли вполне человеческий характер. Среди них выделялись оптимисты и пессимисты, аккуратные и доверчивые, консерваторы и новаторы. Было очень любопытно наблюдать, как они ведут себя в отношении других автоматов и как они приспосабливают себя к своей среде.
Любая игра автоматов характеризуется системой правил, которые определяют порядок ходов, выигрыши и проигрыши игроков в зависимости от сделанных ими ходов. Автоматы могут запоминать свои ходы и просчитывать последующие действия на несколько шагов вперед. Выигрыши и проигрыши автоматов соответствуют для них вознаграждению или штрафу. Стратегия поведения автомата заключается в том, чтобы максимизировать свой выигрыш, при этом каждый в отдельности стремится только к личному обогащению. Самая интересная игра начиналась тогда, когда они попадали в среду с ограниченными территориально-пищевыми ресурсами. Автоматы вступали в настоящую борьбу за выживание, которая заключалась в том, чтобы выигрывать за счет потерей других. Чтобы максимизировать свой выигрыш, им требовалось минимизировать чужой. Запускалась в действие статистическая машина, отсеивающая менее удачливых, и вознаграждающая самых изворотливых.
Как можно видеть, до тех пор, пока автоматы действуют в индивидуальном порядке, их поведение сводится к набору достаточно простых программ, функционирующих по схеме стимул-реакция. Только когда они вступают в коллективное взаимодействие и начинают играть в игры типа кооперации или конкуренции, у них появляются метапрограммы, а там уже недалеко и до становления характера. Метапрограмма – это следующий