Невербальная коммуникация. Экспериментально-психологические исследования - Владимир Морозов
Шрифт:
Интервал:
Закладка:
Основной принцип исследования разборчивости состоит в прослушивании группой подготовленных слушателей того, что говорит человек, записи прослушанного и определении вероятности правильного восприятия по отношению ко всему переданному говорящими речевому материалу, согласно формуле: A = Wx/W∑, где А – разборчивость речи в процентах; W∑ – число переданных говорящим лингвистических единиц, например слов; Wx – число правильно принятых слушателем слов.
Характер речевого материала при этом оказывает весьма существенное влияние на результаты восприятия речи слушателем. Так, показано, что при всех прочих равных условиях максимальная разборчивость наблюдается при восприятии связной речи в виде предложений (так называемая фразовая разборчивость). При тех же условиях процент разборчивости оказывается меньше, если передаются изолированные слова, и еще меньше – при передаче изолированных фонетических элементов речи типа слогов (или, как их иногда называют, логотомов). Указанное обстоятельство объясняется высокой информационной избыточностью речевого сигнала связной речи, обеспечивающей возможность слушателю догадываться о нечетко произнесенных и даже вовсе не произнесенных (редуцированных) звуках по смыслу речевого высказывания.
Зависимости между слоговой, словесной и фразовой разборчивостью для английской речи впервые определены Коллардом (Collard, 1929 – цит. по: Покровский, 1962). Для русской речи они обстоятельно были изучены коллективом инженеров Военной академии связи совместно с кафедрой экспериментальной фонетики Ленинградского университета (Покровский, 1962). Для этой цели были разработаны специальные тестовые фразы, слова и слоги, а также процедуры исследования. Данные формы речевого материала были разработаны с учетом статистических характеристик и фонетических закономерностей русской речи, составлено 100 слоговых таблиц по 50 слогов в каждой. Слоги эти закрытые (начинаются и оканчиваются согласными) и лишены смысла (не являются односложными словами).
Комплекс слоговых таблиц официально утвержден для исследования разборчивости русской речи (ГОСТ-7153–61). Составлен также комплекс из 50 лингвистически сбалансированных словесных таблиц (по 50 слов в каждой, служащих для тех же целей), а также материалы для определения фразовой разборчивости (Покровский, 1962).
Зависимости между слоговой, словесной и фразовой разборчивостями для английской и русской речи приведены на рисунках 1 и 2. На основании указанных закономерностей, зная слоговую разборчивость, всегда можно определить разборчивость слов и разборчивость фраз, т. е. связной речи. Так, например, 50 % разборчивости слогов соответствуют 90,5 % разборчивости слов и 96,5 % разборчивости фраз, что считается весьма удовлетворительным.
Рис. 1. Зависимость словесной разборчивости (W) от разборчивости слогов (S) (Покровский, 1970)
Рис. 2. Зависимость фразовой разборчивости (J) от разборчивости слогов (S) (Покровский, 1970)
Информационная избыточность связной речи, обусловливающая повышенную разборчивость осмысленных элементов речи (фраз и слов) по отношению к слогам, является важнейшим психоакустическим свойством речевого восприятия. Этот феномен свидетельствует, что процесс восприятия речи не является поэлементным. Он не сводится к последовательному восприятию отдельных речевых элементов (звуков или слогов), а в каждый данный момент является вероятностным, т. е. опирается на достаточно широкую ретроспективную (т. е. на то, что было произнесено раньше) и перспективную (что будет сказано) оценку воспринимаемого речевого материала. Решающим с этой точки зрения фактором является знание слушателем лингвистических вероятностных закономерностей языка, приобретаемых, разумеется, не в результате какого-либо специального обучения, а эмпирическим путем в процессе овладения языком, начиная с раннего детского возраста.
Трудности проблемы автоматического распознавания речи (существующие и по сей день) в значительной мере возникали в результате попыток исследователей ограничить процесс распознавания процедурой поэлементного, например пофонемного, анализа речевого потока. Но, поскольку многие звуки в живой разговорной речи неузнаваемо изменены (по отношению к своему среднестатистическому стандарту) или даже вовсе отсутствуют, данный алгоритм речевого распознавания заведомо не оптимален. Поэтому в современных теориях машинного распознавания речи все более и более начинает доминировать идея о необходимости обучения ЭВМ распознаванию речи на основе тех же принципов, что и овладение речью человеком в онтогенезе, т. е. на основе «усвоения» машиной всех необходимых вероятностных языковых закономерностей (Ли, 1983).
Спектральные характеристики речи. Наиважнейшей акустической характеристикой речи, обусловливающей восприятие слушателем речевой информации, является динамика спектрального состава звука во времени. Спектром звука принято называть представление сигнала в координатах «частота – амплитуда», иными словами – зависимость амплитуд обертонов от их частоты.
Голосовой источник (гортань, голосовые складки) формирует звук (см. рисунок 3а, б) с линейно падающей по мере увеличения частоты амплитудой обертонов (см. рисунок 3в). Резонаторная система речевого тракта (ротовая полость, глотка) обладает свойством усиливать отдельные полосы частот, значение которых определяется объемом и конфигурацией ротоглоточного резонатора, что в свою очередь обусловливается характерным для каждого речевого звука положением артикуляционных органов (см. рисунок 3 г). В результате прохождения звуковой волны от голосовых складок через ротоглоточный резонатор[9] спектр ее оказывается преобразованным, т. е. имеет максимумы акустической энергии (F1, F2) в частотных полосах, соответствующих резонансному усилению речевого тракта, и минимумы в соседних полосах, соответствующих поглощению (подавлению) речевым трактом акустической энергии (см. рисунок 3д).
Рис. 3. Схема преобразования спектра в речевом тракте (Сапожков, Михайлов, 1983).
а – звуковые импульсы голосовых связок; б – осциллограмма речевого звука; в – спектр источника (голосовых связок); г – резонансные характеристики речевого тракта; д – результирующий спектр речевого звука. А – амплитуда; Р – звуковое давление; t – время; L – относительный уровень спектральных составляющих; f – частота спектральных составляющих; F1 – первая форманта; F2 – вторая форманта.
Как установлено с параллельным применением кинорентгеносъемки и акустической техники, в процессе артикуляции звуков речи, т. е. перемещении языка, губ, челюсти, изменении объемов и конфигурации ротовой и глоточной полостей, резонансные характеристики речевого тракта меняются. Это соответственно приводит к изменению максимумов на спектрах речевых звуков, в частности гласных [А], [Э], [И], [О], [У], [Ы] (см. рисунок 4). Максимумы акустической энергии на спектрах звуков, получившие название формантных максимумов, или речевых формант, играют основную роль в опознавании речевых звуков слуховой системой человека. Формантные максимумы на спектрограммах обозначаются индексами F1, F2, F3 и т. д. (см. рисунок 3д) в соответствии с номером форманты (нумерация ведется от самой низкой, первой, форманты F1 к высоким).
Рис. 4. Представление шести русских гласных [А], [Э], [И], [О], [У], [Ы] в координатах «частота первой форманты F1 (по оси абсцисс) – частота второй форманты F2 (по оси ординат)» (Fant, 1965).
Характерное положение каждой гласной на плоскости F1 – F2 обозначено точкой. Рядом изображен характерный профиль речевого тракта при артикуляции данного звука и типичные для каждой гласной спектрограммы.
Согласно акустической теории речеобразования (Fant, 1960), каждый речевой звук характеризуется наличием ряда формант. Однако для эффективного узнавания звуков речи слушателем достаточно первых двух формант (F1 и F2). В отличие от гласных спектральные максимумы многих согласных (например, С, З, Ш) сильно сдвинуты в высокочастотную область вплоть до ультразвуковых частот 50–80 кГц (Мясников, Мясникова, 1970). Вместе с тем в спектре естественной речи обнаружены и низкочастотные составляющие в области инфразвуков (Морозов и др., 1972).