Роль семантики в воспроизведении длительностей звуковых фрагментов

902

Аннотация

Представлены результаты экспериментального исследования особенностей восприятия длительностей естественных, реверсивных и психофизических сигналов. Сконструирована методика семантического дифференциала для описания звуковых фрагментов по шести шкалам. Показано, что латентные переменные, определяющие описания естественных и искусственно созданных звуковых фрагментов, идентичны. Выявлена корреляционная связь между описанием звуковых фрагментов и ошибкой воспроизведения их длительности.

Общая информация

Ключевые слова: восприятие, восприятие времени, семантический дифференциал, звуковой сигнал, латентные переменные, воспроизведение

Рубрика издания: Психофизиология

Для цитаты: Садов В.А., Шпагонова Н.Г. Роль семантики в воспроизведении длительностей звуковых фрагментов // Экспериментальная психология. 2008. Том 1. № 1. С. 34–44.

Фрагмент статьи

... В нашей работе экспериментальной проверке подвергалась гипотеза о связи качественного содержания звуковых сигналов и восприятия их длительности.

В соответствии с этим были поставлены следующие задачи.

  1. Сконструировать метод для определения латентных переменных, детерминирующих описание естественных, реверсивных и простых психофизических (тональных) звуковых фрагментов;
  2. Выявить связь семантического описания естественных и искусственно созданных звуковых фрагментов с показателями эффективности воспроизведения длительностей;
  3. Исследовать особенности воспроизведения длительностей естественных, реверсивных и простых психофизических звуковых фрагментов.

Методика

Для реализации данного исследования был создан экспериментально-аппаратурный комплекс зрительного и слухового восприятия человека, сконструированы методические, аппаратурные и программные средства. Особенностью данного комплекса является то, что он позволяет реализовывать воспроизведение естественных и искусственных звуков по заданной экспериментатором схеме. Был создан программный продукт для предъявления звуков с заданными параметрами длительности. В качестве исходного материала для этой программы выступали мультимедийные файлы форматов: WAV, MIDI, AVI, создание, подбор и обработка которых предварительно осуществлялась звуковыми редакторами. В результате анализа литературных данных был выбран метод воспроизведения, как наиболее точный по сравнению с методом оценки и отмеривания (Фресс, Пиаже, 1978; Лисенкова, Шпагонова, 2006). Разработана процедура проведения эксперимента по изучению воспроизведения длительностей естественных и искусственных звуков.

Программа разработана с учетом специфики такого воспроизведения. Сценарий проведения исследования разработан для применения метода постоянных раздражителей в части, касающейся предъявления стимуляции и метода воспроизведения для регистрации длительностей. Создана электронная система, выбраны технические средства для предъявления экспериментатором и воспроизведения испытуемым звуков в свободном акустическом поле. Определены компьютерные способы трансформации файлов, позволяющие изменять признак естественности звуков. Проведена трансформация звуков, изменяющая их естественность и реализованная путем транспонирования и реверсирования отобранных сигналов. На основе анализа и сравнения возможностей существующих компьютерных редакторов (Cakewall Pro Audio 9 Fixed, Cool Edit Pro 1.20, Sound Forge 4.5c 295, BMP DJ Studio 1.5.0.260 и др.) определен редактор (Cool Edit Pro 1.20), позволяющий осуществлять требуемые изменения звуков. Транспонирование состоит в дискретном изменении спектрального состава сигнала, в результате которого изменяется естественность звука. Возможная дискретность транспонирования составляет 1/12 часть октавы. Для каждого транспонируемого и исходного сигналов осуществляется анализ их физических параметров (спектральный состав, частота основного тона и амплитудные характеристики). Реверсирование (проигрывание звука в обратном направлении) позволяет при неизменных спектральных и временных характеристиках звуков изменять степень естественности сигнала. ...

Полный текст

Время является одним из самых важных условий жизни и деятельности человека. В психофизических исследованиях восприятие времени традиционно изучается на материале интервалов определенной длительности, задаваемых простыми физическими сигналами: свечением световой точки или пятна либо простыми тональными звуками и т. д. Испытуемым предъявляются либо незаполненные интервалы времени, в которых отмечаются начало и конец, либо заполненные интервалы световых или звуковых сигналов (Фресс, Пиаже, 1978).

В повседневной жизни человек имеет дело как с искусственными сигналами определенной длительности, так и с реальными процессами, длительность которых ему требуется адекватно воспринимать. Перенесение закономерностей, установленных на искусственных – лабораторных – сигналах, на жизненные реалии не всегда является валидным.

Исследования восприятия времени естественных процессов представлены в основном в прикладных работах с использованием несложных методик диагностического характера: изучение временных параметров локомоций, речи, восприятия мелодий, взаимодействия пользователя с компьютером (Bella et al., 2003; Fortin & Breton, 1995; Schaefer, 1990; Tresilian, 1995).

В данной работе основное внимание уделяется предметному, семантическому содержанию воспринимаемой человеком сенсорно-перцептивной информации и ее влиянию на восприятие временного интервала. Восприятие времени в задачах, приближенных к реальным, рассматривается как целостный феномен, и оценка длительности звукового процесса не раскладывается на последовательность дискретных событий (Sadov, 1993).

В нашей работе экспериментальной проверке подвергалась гипотеза о связи качественного содержания звуковых сигналов и восприятия их длительности.

В соответствии с этим были поставлены следующие задачи.

  1. Сконструировать метод для определения латентных переменных, детерминирующих описание естественных, реверсивных и простых психофизических (тональных) звуковых фрагментов;
  2. Выявить связь семантического описания естественных и искусственно созданных звуковых фрагментов с показателями эффективности воспроизведения длительностей;
  3. Исследовать особенности воспроизведения длительностей естественных, реверсивных и простых психофизических звуковых фрагментов.

Методика

Для реализации данного исследования был создан экспериментально-аппаратурный комплекс зрительного и слухового восприятия человека, сконструированы методические, аппаратурные и программные средства. Особенностью данного комплекса является то, что он позволяет реализовывать воспроизведение естественных и искусственных звуков по заданной экспериментатором схеме. Был создан программный продукт для предъявления звуков с заданными параметрами длительности. В качестве исходного материала для этой программы выступали мультимедийные файлы форматов: WAV, MIDI, AVI, создание, подбор и обработка которых предварительно осуществлялась звуковыми редакторами. В результате анализа литературных данных был выбран метод воспроизведения, как наиболее точный по сравнению с методом оценки и отмеривания (Фресс, Пиаже, 1978; Лисенкова, Шпагонова, 2006). Разработана процедура проведения эксперимента по изучению воспроизведения длительностей естественных и искусственных звуков.

Программа разработана с учетом специфики такого воспроизведения. Сценарий проведения исследования разработан для применения метода постоянных раздражителей в части, касающейся предъявления стимуляции и метода воспроизведения для регистрации длительностей. Создана электронная система, выбраны технические средства для предъявления экспериментатором и воспроизведения испытуемым звуков в свободном акустическом поле. Определены компьютерные способы трансформации файлов, позволяющие изменять признак естественности звуков. Проведена трансформация звуков, изменяющая их естественность и реализованная путем транспонирования и реверсирования отобранных сигналов. На основе анализа и сравнения возможностей существующих компьютерных редакторов (Cakewall Pro Audio 9 Fixed, Cool Edit Pro 1.20, Sound Forge 4.5c 295, BMP DJ Studio 1.5.0.260 и др.) определен редактор (Cool Edit Pro 1.20), позволяющий осуществлять требуемые изменения звуков. Транспонирование состоит в дискретном изменении спектрального состава сигнала, в результате которого изменяется естественность звука. Возможная дискретность транспонирования составляет 1/12 часть октавы. Для каждого транспонируемого и исходного сигналов осуществляется анализ их физических параметров (спектральный состав, частота основного тона и амплитудные характеристики). Реверсирование (проигрывание звука в обратном направлении) позволяет при неизменных спектральных и временных характеристиках звуков изменять степень естественности сигнала.

Комплекс состоит из двух блоков. Первый блок включает акустическое оборудование и компьютерный комплекс со специальным программным обеспечением, разработанный доцентом ГУГН В. А. Садовым. Второй блок представляет собой специально оборудованную звукоизолированную затемненную камеру для испытуемых. Звуки предъявлялись стереофонически в свободном акустическом поле. Громкость звучаний на уровне слушателя – около 60 дБ. Аппаратура обеспечивала отношение «сигнал-шум» – 70 дБ (схема 1).

Для решения поставленных задач была создана методика для выявления семантики описания естественных, реверсивных и простых психофизических (тональных) звуковых фрагментов по типу семантического дифференциала СД. Процесс создания методики СД состоял из нескольких этапов. На первом этапе были выявлены

300 признаков описания звуков (Носуленко, 1988; Епифанов, 1991). Выбирались такие признаки описания звуков, которые использовались испытуемыми в свободном описании и направленном интервью. Направленное интервью включало в себя следующие вопросы.

  1. Что это за звук?
  2. На что похож данный звук?
  3. Как вы думаете, что является источником данного звука?
  4. Где можно услышать этот звук?
  5. С какими событиями он связан?
  6. Какие ассоциации вызывает?
  7. Знаком ли вам этот звук?
  8. Нравится ли вам данный звук? Почему?
  9. Какие эмоции вызывает у вас этот звук?

Далее методом частотного анализа были отобраны 166 признаков, из которых организованы 83 оппозиции прилагательных СД. В список включались повторения, а также изменялись полюса прилагательных. Это было сделано для контроля. Предлагалось семь градаций от –3 до +3 с нулем посередине. (Садов, Шпагонова, 2003).

Стимульный материал

Звуки отбирались из аудиотеки Тьерри Морати «Эволюционные релаксации», DIEM, Франция, предоставленной Е. Г. Епифановым. Предложены следующие звуковые фрагменты: мяуканье кошки – 995 мс, цокот копыт лошади – 1010 мс, лай собаки – 555 мс, крик кукушки – 612 мс, звук падающей капли – 203 мс, пение птиц в лесу – 2449 мс, удар топора по дереву – 505 мс, крик моржа – 3039 мс, бой часов – 1082 мс, их реверсивные звучания (реверсирование – проигрывание звукового фрагмента в обратном направлении) и тональные сигналы с частотой основного тона. Естественные звуки выбирались по следующим основаниям.

  • Знакомые, встречаемые в жизни испытуемых (например, пение птиц в лесу) с разной степенью встречаемости и узнаваемости. Некоторые естественные звуковые фрагменты легко узнавались испытуемыми (звук падающей капли, мяуканье кошки, лай собаки, пение птиц в лесу), определение других звуков вызывало затруднение (удар топора по дереву, бой часов, крик моржа);
  • Естественные звуки представляли собой законченный звуковой фрагмент;
  • Длительности исследуемых звуковых фрагментов находились в диапазоне 203 мс – 3039 мс, который включает три диапазона временной суммации: полной, частичной и диапазона, где ее не существует. В психофизике традиционно изучают эти диапазоны длительностей.

У неестественных (реверсивных и тональных звуков) физическое описание было аналогично описанию естественных звуков, сохранен тот же интегральный спектральный состав. Начало и окончание тонального сигнала соответствовало нулевой фазе, чтобы исключить звук щелчка.

Процедура исследования

Исследование проводилось индивидуально и состояло из двух серий. В первой серии испытуемому предъявлялся один из вышеперечисленных звуков, который он мог прослушивать несколько раз, нажимая на кнопку воспроизведения звука. После прослушивания звука испытуемому через переговорное устройство экспериментатор задавал вопросы «Направленного интервью». Ответы испытуемого фиксировались в журнале. Далее ему предъявлялись звуковые фрагменты. Испытуемый должен был внимательно прослушать каждый звук и оценить его с помощью пар прилагательных, заполняя бланк СД. Каждая пара прилагательных описывает признак, выраженность которого определяется по семибалльной шкале (–3 –2 –1 0 1 2 3). Испытуемый должен был обвести то число, которое, по его мнению, наиболее точно характеризует выраженность предлагаемого признака. Цифра «0» означает отсутствие признака, цифры «–3» и «3» – минимальное и максимальное его значения соответственно, остальные цифры отражают промежуточные значения признака. Всего испытуемый прослушивал 18 звуковых фрагментов (9 – естественных, 9 – реверсивных). В исследовании приняли участие 16 человек.

В следующей серии, состоящей из двух экспериментов, испытуемому предъявлялись эти же звуковые фрагменты в случайном порядке (позиционное уравнивание). Каждый звуковой фрагмент предъявлялся по 20 раз. Общее количество проб в отдельном эксперименте – 180. Отдельная проба состояла из предъявления звукового сигнала и реакции испытуемого. Он должен был прослушать звук и воспроизвести его длительность нажатием на кнопку. Следующий сигнал предъявлялся через интервал от 1 до 2 с случайным образом, чтобы исключить эффект ритмичности. Эмпирически было показано, что данный временной интервал является оптимальным для подготовки к восприятию следующего сигнала (увеличение интервала между пробами увеличивает время проведения самого эксперимента и вызывает раздражение со стороны испытуемых). Длительность воспроизведения предъявленного звука автоматически фиксировалась, запоминалась и классифицировалась. Реакции предвосхищения испытуемых исключались из обработки данных специальным программным способом. Если воспроизведение длительности осуществлялось раньше окончания звукового сигнала, длительность нажатия не подвергалась регистрации, а звуковой сигнал предъявлялся вторично. Проведение отдельного эксперимента по воспроизведению длительности занимало около 20 мин. Перед проведением основного эксперимента каждый испытуемый проходил тренировку для понимания инструкции и выполнения задания. Все исследование с одним испытуемым длилось около 7 часов.

Статистическая обработка данных включала в себя:

  1. Сбор исходных файлов и перенос в базу данных STATISTICA–6.
  2. Предварительный просмотр и отсев явных ошибок с помощью карт качества (правило 3s).
  3. Формирование файлов данных в соответствии с проверяемой гипотезой.
  4. Подбор адекватных статистических методов в соответствии с особенностями изучаемых переменных.
  5. Расчет показателей эффективности воспроизведения длительностей звуковых фрагментов (естественных, реверсивных и тональных).
  6. Создание измерительных шкал. В соответствии с тем что исследуемая переменная, длительность нажатия на кнопку, измеряется в шкале порядка, для анализа были использованы непараметрические методы (ранговая статистика). Анализ поведения данной переменной показал, что ее распределение близко к распределению Пуассона и мало отличается от нормального при больших количествах замеров (n>100). Исследование поведения шкальных переменных показало, что их распределение имеет вид, близкий к усеченному нормальному распределению, и использование факторного анализа обосновано (Гусев, Михалевская, Измайлов, 2005).
  7. Проверка предложенных шкал по классическим показателям надежности.
  8. По нормированным шкалам проведено описание в эксперименте звуков.
  9. Выявление связи между семантическим описанием звуков и показателями эффективности воспроизведения длительностей (корреляционный анализ).

Результаты и их обсуждение

При создании семантического описания звуковых фрагментов мы опирались на результаты факторного анализа бланков СД (метод принципиальных компонент, вращение Varimax, 60–70 % дисперсии), который показал, что выделены шесть факторов, идентичных как для описания естественных, так и для реверсивных звуков. На основании полученных результатов были созданы шесть шкал, проведена их психометрическая проверка. Каждый фактор рассматривался нами как реальная латентная переменная, и для ее измерения конструировалась шкала. Были получены следующие шкалы.

  • Недифференцированная эмоциональная оценка звука (a Кронбаха = 0,94): приятный-неприятный, расслабляющий-пугающий, комфортный-некомфортный, привлекающий-непривлекающий, неутомительный-утомительный, нераздражающий-раздражающий, желаемый-нежелаемый, благоприятный-неблагоприятный.
  • Естественность звука (a Кронбаха = 0,92): естественный-искусственный, природный-механический, одушевленный-неодушевленный, живой-неживой, живой-синтетический.
  • Известность звука (a Кронбаха = 0,92): знакомый-незнакомый, встречаемый-невстречаемый, известный-неизвестный, обычный-необычный, стандартный-нестандартный.
  • Высота звука (a Кронбаха = 0,78): высокий-тонкий, тонкий-толстый, легкий-тяжелый, острый-тупой.
  • Резкость звука (a Кронбаха = 0,85): ритмичный-мелодичный, резкий-плавный, обрывистый-плавный, жесткий-мягкий.
  • Сила звука (a Кронбаха = 0,76): громкий-тихий, сильный-слабый, звонкий-глухой, четкий-размытый, яркий-тусклый.

Корреляционный анализ показал, что описания звуков по полученным шкалам связаны с воспроизведением длительности этих звуков:

  • Звуки, имеющие положительную эмоциональную оценку, воспроизводились с меньшей временной ошибкой, чем звуки, отрицательно окрашенные;
  • Отнесенность звуков к естественным приводила также к уменьшению временной ошибки;
  • Оценка силы (громкости) звука отрицательно коррелировала с величиной временной ошибки;
  • Звуки, оцениваемые как резкие, воспроизводились с большей временной ошибкой.

Таким образом, с наименьшей ошибкой воспроизводились звуки, воспринимаемые как естественные, сильные, плавные и эмоционально положительно оцениваемые (Садов, Шпагонова, 2006).

Анализ оценок профилей предъявляемых звуков (естественных и реверсивных) по нормированным шкалам показал, что наиболее положительная эмоциональная оценка, естественность и высота выявлена у звукового фрагмента – пение птиц в лесу, наименее положительная, неестественная и низкая – у боя часов; наиболее высокая оценка известности – у звука падающей капли, наиболее низкая – у реверсивного звука удар топора по дереву; самая высокая оценка резкости у звука – цокот копыт лошади, а низкая – у звука мяуканья кошки (Анастази, 1982).

Следующая задача нашего исследования состояла в сопоставлении описания естественных и реверсивных звуков с описанием тональных сигналов, которые традиционно используются в психофизике. На этом этапе СД был модифицирован: сокращено число признаков, убраны повторные пункты и пункты с минимальной дифференцирующей способностью. Были добавлены признаки положительных эмоций, длительности и объемности. В результате получился СД, состоящий из 49 признаков (бланк). Сокращение пунктов СД было проведено для сокращения времени эксперимента и устранения утомления.

Для верификации полученной методики была проведена двойная кросс-валидизация с использованием тональных сигналов и другой выборки испытуемых. В эксперименте приняли участие 16 испытуемых. Процедура и обработка этого исследования была аналогична предыдущему. Предъявлялись девять звуков: помимо трех естественных (мяуканье кошки – 995 мс, удар топора по дереву – 505 мс, звук падающей капли – 203 мс) и трех реверсивных, предъявлялись три тональных звука с частотой основного тона естественных сигналов. Длительности реверсивных и тональных сигналов равнялись также 995; 505; 203 мс.

Факторный анализ СД описания естественных, реверсивных и тональных звуков позволил выделить те же самые шесть факторов и создать шесть шкал, что и в предыдущем исследовании: недифференцированная эмоциональная оценка звука (a Кронбаха = 0,94), его естественность (a  Кронбаха = 0,92), известность (a Кронбаха = 0,92), высота (a Кронбаха = 0,78), резкость (a Кронбаха = 0,85), сила (a Кронбаха = 0,76) (см. бланк). Эти шкалы содержат те же самые признаки, что и в предыдущем исследовании, и обладают такой же надежностью, несмотря на то что в исследовании принимали участие другие люди и предъявлялись другие звуки.

Полученные результаты дают нам возможность использовать сконструированную методику СД для семантического описания звуковых фрагментов по шести шкалам. Латентные переменные, определяющие описания естественных и искусственных звуков, идентичны.

Результаты исследования показали наличие корреляционной связи между семантическим описанием звуковых фрагментов (естественных, реверсивных и тональных) и воспроизведением их длительности. С наименьшей временной ошибкой воспроизводились длительности звуков, оцениваемые как естественные, известные и сильные. Причем с меньшей временной ошибкой воспроизводились:

  • естественные звуки, оцениваемые как более естественные и сильные;
  • реверсивные звуки, оцениваемые как более естественные, известные и сильные;
  • тональные звуки, оцениваемые как более известные и плавные.

Анализ результатов показал также, что длительности естественных звуков (505, 995 мс) воспроизводились с меньшей временной ошибкой, чем реверсивные и тональные звуки аналогичной длительности (Садов, Шпагонова, 2007).

Экспериментально установлено, что громкий звук кажется более длительным, чем менее громкий (Фресс, Пиаже, 1972). В нашем исследовании объективная громкость звучаний была одинакова для всех звуков (естественных, реверсивных и тональных), с наименьшей ошибкой воспроизводились звуки, оцениваемые как громкие, сильные, звонкие. Влияние сложности звукового сигнала на восприятие его длительности изучалось рядом авторов, которые показали, что более сложные сигналы воспринимались как более длительные (Шиффман, 2003). В нашей работе с наименьшей ошибкой воспроизводились звуки, оцениваемые как известные, знакомые, встречаемые, обычные.

Таким образом, нам удалось показать, что воспроизведение длительности звуковых фрагментов связано с их семантическим содержанием.

Выводы

  1. Выявлены латентные переменные (шесть), определяющие описания звуков.
  2. Латентные переменные идентичны для естественных, реверсивных и тональных звучаний.
  3. Сконструированы шкалы описания звуковых фрагментов и определены их психометрические характеристики (надежность-согласованность, перекрестная валидность).
  4. С наименьшей ошибкой воспроизводились звуки, оцениваемые как естественные, известные и сильные. Длительности естественных звуков (505 мс, 995 мс) воспроизводились с меньшей ошибкой, чем реверсивные и тональные звуки аналогичной длительности.

Литература

  1. Анастази А. Психологическое тестирование: В 2 т. М.: Педагогика, 1982.
  2. Гусев А.Н., Михалевская М.Б., Измайлов Ч.А. Измерение в психологии. М.: УМК «Психология», 2005.
  3. Епифанов Е.Г. Акустическая среда в системе сенсорно-моторной регуляции // Проблемы экологической психоакустики. М.: Изд-во ИП РАН, 1991. С. 89–117.
  4. Лисенкова В.П., Шпагонова Н.Г. Индивидуальные и возрастные особенности восприятия времени (на примере детской, подростковой и юношеской выборок) // Психологический журнал. 2006. Т. 27. № 3. С. 49–57.
  5. Носуленко В.Н. Психология слухового восприятия. М.: Наука, 1988.
  6. Садов В.А., Шпагонова Н.Г. Оценка и воспроизведение длительности естественных и искаженных звучаний // Ежегодник РПО. Материалы III Всероссийского съезда психологов. СПб.: Изд-во СПбГУ, 2003. Т.7. С. 19–22.
  7. Садов В.А., Шпагонова Н.Г. Экологический подход в исследовании восприятия времени // Труды Второй Международной конференции по когнитивной науке. СПб.: Изд-во СПбГУ, 2006. Т. 2. С. 417–418.
  8. Садов В.А., Шпагонова Н.Г. Роль семантики в восприятии длительностей естественных и психофизических сигналов // Психофизика сегодня. М.: Изд-во ИП РАН, 2007.  С. 297– 303.
  9. Фресс П., Пиаже Ж. Восприятие и оценка времени // Экспериментальная психология. М.: «Прогресс», 1978. Вып. VI.
  10. Шиффман Х.Р. Восприятие времени // Ощущение и восприятие. 5-е изд. СПб.: Питер, 2003.
  11. Bella S.D., Pekets, Aronoff N. Time course of melody recognition: a gating paradigm study // Perception & Psychophysics. 2003. V. 65. P. 1019–1028.
  12. Fortin C.  & Breton R.  Temporal interval production and processing in working memory // Perception & Psychophysics. 1995. P. 203–215.
  13. Sadov V.A. Two Approaches to Study of the Perception of Time // Time, personality, memory. Ed. N.N. Korzh. Journal of Russian and East European Psychology. 1993. V. 31. № 5.  P. 21–33.
  14. Schaefer F. The effect of system response time on temporal predictability of work flow in human-computer // Human Performance. 1990. V. 3. P. 173–186.
  15. Tresilian J.R. Perceptual and cognitive process in time-to-contact estimation: Analisys of prediction-motion and relative judgment task // Perception & Psychophysics. 1995. V.57.  P. 231–245.

Информация об авторах

Садов Василий Алексеевич, кандидат психологических наук, доцент Государственного университета гуманитарных наук

Шпагонова Наталья Григорьевна, кандидат психологических наук, старший научный сотрудник Института психологии РАН, e-mail: shpagonova@mail.ru

Метрики

Просмотров

Всего: 4276
В прошлом месяце: 6
В текущем месяце: 4

Скачиваний

Всего: 902
В прошлом месяце: 2
В текущем месяце: 0