Психолингвистическая база данных для семантических категорий

Марченко О.П.

Психолингвистическая база данных для семантических категорий

78

Аннотация

В работе представлена психолингвистическая база данных для русского языка по семантическим категориям, которая может быть использована в различных экспериментальных исследованиях. Для 45 семантических категорий были получены надежные показатели категориальной частотности (generation frequency). Представлены оценки типичности (typicality), образности (imageabity), степени знакомства (familiarity) и субъективного возраста приобретения (Age-of-Acquisition) для слов из 23 семантических категорий.

Общая информация

Ключевые слова: категориальная частотность, типичность, образность, степень знакомства, субъективный возраст приобретения слов

Рубрика издания: Эксперимент в когнитивной психологии

Тип материала: материалы конференции

Для цитаты: Марченко О.П. Психолингвистическая база данных для семантических категорий // Экспериментальная психология в России: традиции и перспективы.

Фрагмент статьи

Категоризация является наиболее базовым феноменом познания и, как следствие, одной из фундаментальных проблем когнитивной науки (Medin, Aguilar, 1999; Cohen, Lefebvre, 2005). Было показано, что существует целый ряд переменных, таких как категориальная частота (Battig, Montague, 1969), типичность (Rosh, 1975), образность (Chiarello et al., 1999), степень знакомства (Stadthagen-Gonzalez, Davis, 2006), субъективный возраст приобретения слов (Johnston, Barry, 2006) и т. п., которые влияют на категоризацию. Если не проводить контроля над этими переменными, то их неравномерное влияние на те или иные категории может приводить к нарушению валидности данных. Так, например, Ф. Стюарт с соавторами в своем исследовании нарушения способности воспринимать и оценивать одушевленные объекты при локальных повреждениях мозга учитывали визуальную сложность, степень знакомства с объектами и частоту употребления слов, обозначающих эти объекты. Когда авторы сравнивали категории одушевленных и неодушевленных объектов с учетом каждого фактора отдельно, то обнаруживали различия между категориями (нарушения знаний об одушевленных объектах при успешном выполнении аналогичных задач с категориями неодушевленных объектов), однако, когда они объединили все факторы, различия между категориями пропали. Был сделан вывод, что нарушение знаний, связанных с категориями одушевленных объектов, может отражать трудности анализа, которые являются более серьезными для малознакомых, низкочастотных и сложно различимых зрительно объектов. Объектов же с такими характеристиками больше в категориях одушевленных существ (Stewart et al., 1992). Таким образом, существует ряд переменных, которые необходимо учитывать при планировании исследования.

Прежде чем приступать к исследованию семантической категоризации, необходимо выяснить основные психолингвистические характеристики используемых слов. Было показано, что как содержание категорий и оценки слов по вышеуказанным шкалам, так и выраженность или даже наличие некоторых феноменов различаются между культурами (Yoon et al., 2004; Medin, Atran, 2004). Поэтому были созданы базы данных для частоты называния, типичности, образности, степени знакомства, субъективного возраста приобретения и других переменных для разных языков и стран (напр.: Ruts et al., 2004). Систематическая психолингвистическая база данных по этим переменным для различных семантических категорий для русского языка до сих пор еще не была создана. Таким образом, цель данного исследования – создание большой психолингвистической базы данных по семантическим категориям для русского языка.

Полный текст

Категоризация является наиболее базовым феноменом познания и, как следствие, одной из фундаментальных проблем когнитивной науки (Medin, Aguilar, 1999; Cohen, Lefebvre, 2005). Было показано, что существует целый ряд переменных, таких как категориальная частота (Battig, Montague, 1969), типичность (Rosh, 1975), образность (Chiarello et al., 1999), степень знакомства (Stadthagen-Gonzalez, Davis, 2006), субъективный возраст приобретения слов (Johnston, Barry, 2006) и т. п., которые влияют на категоризацию. Если не проводить контроля над этими переменными, то их неравномерное влияние на те или иные категории может приводить к нарушению валидности данных. Так, например, Ф. Стюарт с соавторами в своем исследовании нарушения способности воспринимать и оценивать одушевленные объекты при локальных повреждениях мозга учитывали визуальную сложность, степень знакомства с объектами и частоту употребления слов, обозначающих эти объекты. Когда авторы сравнивали категории одушевленных и неодушевленных объектов с учетом каждого фактора отдельно, то обнаруживали различия между категориями (нарушения знаний об одушевленных объектах при успешном выполнении аналогичных задач с категориями неодушевленных объектов), однако, когда они объединили все факторы, различия между категориями пропали. Был сделан вывод, что нарушение знаний, связанных с категориями одушевленных объектов, может отражать трудности анализа, которые являются более серьезными для малознакомых, низкочастотных и сложно различимых зрительно объектов. Объектов же с такими характеристиками больше в категориях одушевленных существ (Stewart et al., 1992). Таким образом, существует ряд переменных, которые необходимо учитывать при планировании исследования.

Прежде чем приступать к исследованию семантической категоризации, необходимо выяснить основные психолингвистические характеристики используемых слов. Было показано, что как содержание категорий и оценки слов по вышеуказанным шкалам, так и выраженность или даже наличие некоторых феноменов различаются между культурами (Yoon et al., 2004; Medin, Atran, 2004). Поэтому были созданы базы данных для частоты называния, типичности, образности, степени знакомства, субъективного возраста приобретения и других переменных для разных языков и стран (напр.: Ruts et al., 2004). Систематическая психолингвистическая база данных по этим переменным для различных семантических категорий для русского языка до сих пор еще не была создана. Таким образом, цель данного исследования – создание большой психолингвистической базы данных по семантическим категориям для русского языка.

I этап. Создание базы по категориальной частоте (доминирование в категории, частота называния)

Для того чтобы изучать категоризацию, прежде всего, необходимо выяснить, какие слова составляют категории у представителя данной культуры, и далее определить частоту этих слов внутри определенных категорий. В 1997 г. были опубликованы данные для 13 семантических категорий на русской выборке (Высоков, Люсин, 1997). Однако базы данных для внушительного числа категорий с участием большой выборки респондентов для русского языка создано еще не было.

Целью данного исследования было создание большой базы данных по категориальной частотности для русского языка.

Методика

В исследовании была использована стандартная процедура, разработанная Battig and Montague (1969). В соответствии со стандартной инструкцией участники исследования должны были написать как можно больше объектов, принадлежащих категории, в течение 30 с. Было выбрано 45 семантических категорий. Набор категорий являлся достаточно разнообразным: он включал в себя категории объектов живой природы (например, «птицы», «рыбы», «насекомые», «фрукты», «овощи», «деревья»), категории искусственных объектов (например, «транспорт», «мебель», «одежда», «музыкальные инструменты»), категории, связанные с различными сферами человеческой деятельности, и т. п. Триста сорок студентов различных вузов Москвы приняли участие в исследовании как добровольцы (Me = 19). Для всех участников русский язык был родным. Названия категорий предъявлялись в случайном порядке разным группам участников исследования для того, чтобы избежать влияния эффектов последовательности, обучения и т.д. Экспериментатор вслух зачитывал инструкцию и называл категории. Участники исследования получали блокноты для выполнения задания. Тестирование проводилось маленькими группами.

Результаты и их обсуждение

Для каждого члена категории была подсчитана общая частота его называния и частота случаев называния его первым. Надежность этих показателей была подсчитана с применением деления выборки на две случайные половины. Все корреляции были значимы, p<0,001. Далее применялась формула Спирмена – Брауна. Коэффициенты надежности оказались довольно высокими (в среднем 0,98). Также были подсчитаны корреляции со словарем частотности русского языка. Для одних категорий корреляции были высокими, для других – низкими или даже отрицательными. Иногда корреляции были незначимы. Тот факт, что частота называния высоко коррелирует с обычной частотой для одних категорий и не коррелирует для других категорий, показывает, что частота называния является независимой переменной, которую необходимо учитывать.

Перечень слов, полученных в этом исследовании, использовался при оценке таких психолингвистических переменных, как типичность, образность, степени знакомства и субъективного возраста приобретения.

Второй этап. Создание базы данных по типичности, образности, степени знакомства, субъективного возраста приобретения слов

Было ясно продемонстрировано, что не все слова внутри категории обладают одинаковым статусом. Они отличаются по тому, насколько они отражают значение названия категории (Rosch, 1975). Эта переменная была названа «типичностью» (typicality). Было показано, что типичность влияет на особенности выполнения различных когнитивных задач, требующих категоризации. (Rosch, 1975). Также слова отличаются по способности вызывать мысленный образ (образности). Образность слов (imageability) также влияет на успешность выполнения различных когнитивных задач (Strain, Herdman, 1999). Степень знакомства (familiarity) понятий также является значимой переменной (Weisgerber, Johnson, 1989). Эта переменная отражает, как часто люди контактируют с определенными понятиями в повседневной жизни. Субъективный возраст приобретения (Age-of-Acquisition) – одна из самых противоречивых переменных. Кажется довольно странным, что взрослые участники исследований могут оценивать возраст приобретения слов надежным образом. Тем не менее, надежность этих оценок обычно довольно высока. Более того, была обнаружена высокая корреляция между возрастом, когда 75% детей могут называть, что изображено на картинке, и оценками субъективного возраста приобретения соответствующих названий объектов взрослыми людьми (Morrison et al., 1997). Было показано, что психолингвистические переменные коррелируют друг с другом (Morrison, Gibbons, 2006). Долгое время считалось, что частота является наиболее значимой переменной, которая детерминирует изменения других переменных. Однако Моррисон и соавторы обнаружили, что субъективный возраст приобретения оказывает независимое влияние на скорость называния картинок, в то время как частотность не оказывает независимого влияния (Morrison et al., 2006). Таким образом, роль субъективного возраста приобретения может оказаться намного более серьезной, нежели предполагалось ранее. Поэтому было решено создать базу данных для этой переменной.

Методики

Двадцать три категории различного рода были выбраны из списка категориальной частотности. Было отобрано много категорий объектов искусственного и биологического происхождения. Сравнение этих категорий является предметом особого интереса в современной когнитивной науке (Caramazza, Shelton, 1998). Обычно исследователи используют не все слова из категорий при проведении подобных исследований, а только высокочастотные (например, те слова, которые были названы больше чем 10 участниками в исследовании частоты названия слов) (Rosh, 1975; Ruts et al., 2004). Однако важно определить типичность, образность, степень знакомства и субъективный возраст приобретения также низкочастотных слов. Поэтому все слова, названные участниками исследования по созданию базы данных категориальной частотности, были включены в списки. Набор из 23 категорий был разделен на три списка слов. Каждый участник получал один из трех списков, чтобы оценить типичность или образность или субъективный возраст приобретения слов, принадлежащих семантическим категориям. Порядок категорий и слова внутри категорий предъявлялись в случайном порядке разным участникам. Для определения типичности слов участники получили инструкцию, которая были использована Э.Рош. Инструкция была переведена с английского языка и адаптирована для данного исследования (Rosh, 1975). Инструкции для оценки образности, степени знакомства и субъективного возраста приобретения были взяты из исследования по созданию бристольской психолингвистической базы данных, переведены на русский язык и адаптированы для слов, представленных по категориям (Stadthagen-Gonzalez, Davis, 2006). Шестьсот студентов было задействовано для этого исследования. Пятьдесят человек оценивали каждый из предложенных списков по одной из инструкций (M=19 лет). Участники были студентами различных вузов Москвы, для которых русский язык был родным.

Результаты и их обсуждение

Надежность оценивалась методом деления выборки на две части с применением формулы Спирмена–Брауна. Корреляции были значимы, p<0,001. Надежность оказалась довольно высокой (в среднем 0,90). Эти данные могут быть использованы в качестве нормативной базы, так как была доказана их надежность.

Такая база данных будет полезна для исследователей, которые интересуются категоризацией слов. Так как добросовестная подготовка экспериментального исследовании требует уравновешивать выборки слов по различным психолингвистическим переменным, использование подобной базы данных позволит решить эту задачу. Она также может быть использована в исследованиях билингвизма, так как существуют параллельные базы данных для других языков мира. В дальнейшем возможно сравнение изменений этих психолингвистических показателей на различных стадиях онтогенеза, а также при развитии различных патологий психики.

Литература

Высоков И. Е., Люсин Д. В. Внутренняя структура естественных категорий: продуктивная частотность // Психологический журнал. 1997. Т. 18. № 4. С. 69–77.
Шаров С. А. Частотный словарь русского языка. http://www.artint.ru/projects/frqlist.asp.
Battig W. F., Montague W. E. Category norms for verbal items in 56 categories: a replication and extension of the Connecticut category norms // Journal of Experimental Psychology Monograph. 1969. № 80 (3). Р. 1–46.
Caramazza A., Shelton J. R. Domain specific knowledge systems in the brain: the animate-inanimate distinction // Journal of Cognitive Neuroscience. 1998. № 10 (1). Р. 1–34.
Chiarello C., Shears C., Lund K. Imageability and distributional typicality measures of nouns and verbs in contemporary English // Behavior Research Methods, Instruments, & Computers. 1999. V. 31. № 4. P. 603–637.
Cohen H., Lefebvre C. To cognize is to categorize: cognition is categorization // Handbook of categorization in cognitive science / Еd. by Cohen H., Lefebvre C. Elsevier science & technology books. 2005. P.19–43.
Johnston R. A., Barry Ch. Age of acquisition and lexical processing // Visual cognition. 2006. V. 13. № 7/8. P. 789–845.
Medin D. L., Aguilar C. M. Categorization // R. A. Wilson & F. C. Keil (еds). The MIT Encyclopedia of the Cognitive Sciences Cambridge: MIT Press, 1999. Р. 104–106.
Medin D. L., Atran S. The native mind: biological categorization, reasoning and decision making in development across cultures // Psychological Review. 2004. V. 111. № 4. P. 960–983.
Morrison C. M., Chappell T. D., Ellis A. W. Age of Acquisition Norms for a Large Set of Object Names and Their Relation to Adult Estimates and Other Variables // The Quarterly Journal of Experimental Psychology. 1997. V. 50A. P. 528–559.
Morrison C. M., Gibbons Z. C. Lexical determinants of semantic processing speed // Visual Cognition. 2006. № 13 (7/8). Р. 949–967.
Rosh E. Cognitive representations of semantic categories // Journal of Experimental Psychology: General. 1975. № 104. Р. 192–233.
Ruts W., De Deyne S., Ameel E., Vanpaemel W., Verbeemen T., Storms G. Dutch norm data for 13 semantic categories and 338 exemplars // Behavior Research Methods, Instruments, & Computers. 2004. V. 36. P. 506–515.
Stadthagen-Gonzalez H., Davis C. J. The Bristol norms of age of acquisition, imageability, and familiarity // Behavior Research Methods. 2006. V. 38. P. 598–605.
Stewart F., Parkin A. J., Hunkin N. M. Naming impairments following recovery from herpes simplex encephalitis: Category-specifc? // Quarterly Journal of Experimental Psychology. 1992. № 44A. Р. 261–284.
Strain E., Herdman Ch. M. Imageability effects in word naming: An individual differences analysis // Canadian Journal of Experimental psychology. 1999. № 53. Р. 347–359.
Weisgerber S., Johnson P. J. Effect of familiarity and category contrast on stimulus and response priming // Perception&Psychophysics. 1989. № 46. Р. 592–602.
Yoon C., Feinberg F., Hu P., Gutchess A. H., Hedden T., Chen H., Jing Q., Cui Y., Park D. C. Category norms as a function of culture and age: Comparisons of item responses to 105 categories by American and Chinese adults // Psychology and Aging. 2004. № 19 (3). P. 379–393.

Информация об авторах

Марченко Ольга Павловна, научный сотрудник Центра экспериментальнойпсихологии , Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), Москва, Российская Федерация, e-mail: olga.marchenko@yahoo.com

Метрики

Просмотров web

За все время: 2368
В прошлом месяце: 4
В текущем месяце: 1

Скачиваний PDF

За все время: 78
В прошлом месяце: 0
В текущем месяце: 2

Всего

За все время: 2446
В прошлом месяце: 4
В текущем месяце: 3