Введение
Запрос психологии на особые методы обработки текстовых данных исходит из самого факта активного использования этого типа данных в исследованиях. В настоящее время текст является частью исследований, привлекающих методы интервью, дневниковые записи, эссе, вербальные проективные методики, а также использующих публикации как источник данных для исторического и методологического анализа. При «ручной» обработке таких данных поднимаются вопросы ограниченности ресурсов исследователя, субъективности экспертов, размера выборки или обрабатываемого объема данных.
Существует мнение, что исследовательский проект Вальтера Вайнтрауба по изучению естественного языка методом подсчета слов и фраз [Weintraub, 1981] не был активно поддержан психологическим сообществом именно из-за трудоемкости и ограничений такой обработки данных [Ireland, 2014].
Обращение к языку и лингвистическим характеристикам расширяет теоретический потенциал психологии. Так, базой для создания факторных моделей личности стало исследование словарей английского языка [Allport, 1936]. Р. Кеттел выделил из 4500 прилагательных 16 личностных факторов, на основе которых в дальнейшем была разработана пятифакторная модель личности — «Большая пятерка» [Goldberg, 1981]. Таким образом, анализ лингвистических единиц позволил разработать ряд моделей личности, которые значительно повлияли на развитие исследований устойчивых психологических черт.
Данная работа ставит своей задачей описать: 1) какими возможностями и ограничениями обладает перспектива привлечения методов компьютерной лингвистики в психологии; 2) каковы основные методы компьютерной лингвистики, которые уже были эффективно применены в теоретических, методических и эмпирических исследованиях в психологии личности. Особое внимание мы уделяем возможностям использования методов для русского языка, а также важным аспектам дизайна таких исследований — от формирования выборки до интерпретации результатов.
Компьютерная лингвистика и обработка естественного языка
Для понимания особенностей работы с методами обработки текстов, а также их сильных и слабых сторон важно определить поле их возникновения и применения.
Лингвистика в общем ее понимании — в первую очередь наука о языке, описывающая и изучающая его развитие и состояние, фокусирующаяся на языковой системе и языковой норме. Компьютерная же лингвистика занимается, в первую очередь, применением и изобретением вычислительных методов для решения задач лингвистики. В англоязычной литературе в качестве конкретных примеров основных задач компьютерной лингвистики чаще всего упоминаются машинный перевод, извлечение информации из текста и проблема коммуникации человека и компьютера [Grishman, 1986]. Русскоязычная же литература определяет задачи несколько иначе, в первую очередь обозначая вопросы о компьютерном словообразовательном корпусе русского языка, статическом анализе синтаксических форм текста, формализацию делового разговора [Ясулова, 2015].
В данной статье мы фокусируемся на универсальном определении задач этой науки — в первую очередь на задаче извлечения информации из текста. Именно этот вектор развития методов расширяет возможности психологии, позволяя ученым работать с различным текстовым материалом на новом уровне доступных возможностей.
Задача компьютерной лингвистики по извлечению информации из текста и компьютерная лингвистика в целом напрямую соприкасаются с такой областью, как обработка естественного языка (Natural Language Processing, NLP).
Несмотря на то, что эти области часто считаются взаимозаменяемыми, это не соответствует действительному положению вещей. Граница между ними постепенно стирается, и задачи и цели становятся ближе друг к другу; однако главное различие этих двух областей состоит в задачах, которые перед ними стоят. Компьютерная лингвистика в основном фокусируется на вопросах лингвистики и ответах на них в понятной человеку форме, тогда как обработка естественного языка до последнего времени была посвящена в первую очередь прикладной стороне вопроса, опираясь в этом на компьютерные науки, и мало внимания уделяла изучению теории языка [Schubert].
Машинное обучение — третья область, часто упоминаемая вместе с компьютерной лингвистикой и обработкой естественного языка — появляется изначально отдельно от них и в первую очередь является набором методов, которые используются для решения определенных задач (рис. 1). Сочетая продвинутые статистические методы с теорией и возрастающей вычислительной мощностью компьютеров, машинное обучение оказывается способно моделировать закономерности, которые человек усмотреть не способен. Поэтому в последние годы, и особенно с распространением нейронных сетей, машинное обучение оказывается важной частью исследований, как в компьютерной лингвистике, так и в обработке естественного языка [Clark, 2013] (рис. 1).

Рис. 1. Взаимоотношения между компьютерной лингвистикой, обработкой естественного языка и машинным обучением
Основные методы анализа текстов и способы их применения
Главным достижением современных методов обработки текстовых данных является их разнообразие, в том числе в степени сложности применения. Для проведения успешного исследования необходимы навыки программирования на языке Python™, применения алгоритмов и структур данных и умение работать с технической документацией. Такие знания позволят эффективно подбирать и применять методы исследования (например, понимать, какой тип нейронной сети лучше всего подойдет для решения поставленной задачи), а также осмысленно интерпретировать полученные результаты. Однако применение отдельных методов возможно и при полном отсутствии навыков написания кода с использованием готовых удобных программ.
В данном разделе будут освещены основные методы обработки и анализа текстов по мере их усложнения с уточнением того, какие требования предъявляются к исследователю или его команде при переходе на следующий уровень сложности.
В табл. 1 приведены основные методы и инструменты для анализа и работы с текстовыми данными, которые уже активно использовались в психологических исследованиях или потенциально могли бы быть использованы для определенных исследовательских вопросов. Для каждого из методов и инструментов приводятся требования, необходимые навыки для применения, ссылка на техническую документацию и примеры использования для решения конкретных задач. Ниже мы разберем более подробно те методы, которые могут оказаться полезными для самого широкого круга исследователей.
Самым распространенным методом анализа текстов в психологии является LIWC (англ. Linguistic Inquiry and Word Count [The development and, 2015]). Метод представляет собой компьютерную программу, которая подсчитывает в текстовых файлах количество слов, относящихся к заданным категориям. Всего таких категорий слов в последней версии программы 2015 года более 50 [The development and, 2015]. Они состоят из грамматических категорий (например, части речи) и психологических лингвистических параметров (например, эмоциональные слова и слова, связанные с достижениями), которые выделялись группой экспертов на базе английского языка. LIWC широко используется для изучения различных феноменов на многих языках.
Основная критика метода относится к сложности интерпретации результатов в связи с отсутствием в алгоритме учета значения сочетаний слов. Так, предложения «Я никогда не был менее счастлив» и «Я самый счастливый человек на свете» могут быть закодированы программой как содержащие одинаковую долю слов с позитивными эмоциями [Ireland, 2014]. Однако метод направлен именно на выявление тех особенностей использования языка, которые «ускользают» при чтении с пониманием смысла написанного.
Важно отметить особенности использования LIWC для русского языка. Отечественными исследователями отмечается серьезное ограничение русскоязычной версии словаря, которая была создана путем прямого перевода с английского [Dark personalities on, 2018]. В настоящее время предпринимаются попытки создания нового русскоязычного словаря [Panicheva, 2020]. Кроме того, подвергается сомнению эффективность использования для русского языка самого алгоритма программы [Dark personalities on, 2018]. Это связано с тем, что LIWC основан на анализе словарных основ слова,
Таблица 1 Методы и инструменты компьютерной лингвистики применительно к задачам психологии личности
|
Метод |
Требования |
Использование |
Тип |
|
LIWC [The development and, 2015] |
Программное обеспечение |
Подсчет слов определенной категории |
Метод |
|
Тематическое моделирование [An analysis of, 2015] |
Библиотеки Python™ и R, готовые модели [‘What is this, 2017], программное обеспечение |
Выделение тем в тексте |
Метод |
|
Sentiment Analysis |
Библиотека Python™, готовые модели [Dostoevsky: Sentiment analysis], программное обеспечение |
Анализ превалирующей эмоциональной составляющей |
Метод |
|
Анализ семантической связности текста [Crossley, 2016] |
Библиотека Python™, готовые модели |
Анализ семантической связности |
Метод |
|
Оценка семантической сложности текста [Besharati, 2019] |
Библиотека Python™, готовые модели |
Оценка семантической сложности |
Метод |
|
Классификация текстов |
Библиотека Python™, готовые модели |
Разделение текстов по заданным категориям |
Метод |
|
PyMorphy [Korobov, 2015] |
Знание языка Python™ |
Лематизация, определение части речи и словоформ |
Библиотека |
|
Stylo [Eder, 2016] |
Знание языка R |
Идентификация автора, определение стилистики текста |
Библиотека |
|
Omnia Russica [Shavrina, 2019], Ruscorpora [Плунгян, 2005] |
Умение работать с корпусом |
Источник данных |
Корпус |
|
Slovnet [Deep Learning based, 2020] |
Знание языка Python™ |
Морфологический анализ, синтаксис, распознавание понятий |
Библиотека |
|
Freeling [Ferreira, 2004] |
Знание языка C++ или умение работать с командной строкой |
Снятие омонимии, распознавание понятий, определение части речи |
Библиотека |
|
Gensim [Rehurek, 2011] |
Знание языка Python™ |
Обработка текстов, тематическое моделирование, использование Word2Vec [Advances in pre-training, 2017] |
Библиотека |
|
Google Cloud NLP [Bisong, 2019] |
Библиотека, готовые модели, программное обеспечение |
Синтаксический анализ, определение эмоциональной составляющей, синтаксический анализ, создание моделей |
Программное обеспечение, библиотека |
|
Voyant tools [Dickerson, 2018] |
Программное обеспечение |
Облака слов, анализ текста, выделение главных тем и слов |
Программное обеспечение |
|
NLTK [Bird, 2006] |
Библиотека |
Методы естественной обработки языка |
Библиотека |
что полностью соответствует принадлежности английского к аналитической группе языков. Это языки, в которых отношения между словами во многом передаются через служебные слова [Haspelmath, 2017]. Однако русский язык относится к синтетическим языкам, в которых важную роль играют зависимые морфемы (суффиксы, приставки и т. д.), способные полностью изменять словарные значения изначального слова.
Наличие в LIWC жесткого словаря относит его к методам с закрытым словарем (closed vocabulary). Примером методов с открытым словарем (open vocabulary), т. е. словарь которых создается на базе конкретных текстов, является тематическое моделирование.
Тематическое моделирование (англ. topic modeling) — это метод машинного обучения, основанный на кластеризации ключевых слов по близости их употребления. Метод позволяет разделить тексты на группы по темам и характерным для ним термам. Примером термов для темы «спорт» могут быть такие слова, как «игрок», «счет» и «пенальти». Тексты, содержащие такие термы, с некоторой вероятностью относятся к одной группе. Так алгоритм анализирует каждый текст из множества и выдает заданное количество тем, на которые эти тексты могут быть распределены.
Тематическое моделирование может быть использовано для автоматической классификации новостей или в рекомендательных системах. В случае же использования метода в исследовательских целях существенным ограничением является вероятностная основа результатов тематического моделирования, которые зачастую не поддаются интерпретации.
В связи с этим ограничением для реализации тематического моделирования мы рекомендуем использовать метод неотрицательной матричной факторизации (англ. non-negative matrix factorization, NMF; [Novel Algorithm for, 2015]), который превосходит, с точки зрения возможности интерпретации тем, более популярный метод латентного распределения Дирихле (англ. latent Dirichle allocation, LDA [Campbell, 2015].
Реализация методов тематического моделирования может осуществляться как на языках программирования с использованием специальных библиотек, т. е. сборников готовых подпрограмм, созданных для узких задач (например, Gensim (наиболее широко применяемая библиотека) или Scikit-learn для Python™ и Topicmodels для языка R), так и при помощи готовых решений с помощью таких программ и платформ, как MonkeyLearn™, Google Cloud NLP™, Aylien™, Meaning Cloud™ и BigML™.
Методы тематического моделирования успешно использовались в психологии в исследованиях Большой пятерки в целом [Kosinski, 2015] и черты открытости опыту — в частности [Drawing openness to, 2020], самоповреждающего поведения [Nook, 2020], публикациях о делирии [McCoy, 2019] и многих других.
Как было отмечено выше, LIWC позволяет производить не только лексический, но и морфологический анализ, который также реализуется в программе с основой на заданный словарь. Альтернативой для анализа текстов на русском и украинском языках может служить морфологический анализатор PyMorphy [Korobov, 2015], который представляет собой библиотеку для языка программирования Python™. Библиотека может быть использована как для лемматизации (то есть для процесса приведения слова к лемме, его словарной форме) для дальнейшего анализа другими методами, так и как самостоятельный метод морфологического анализа. Анализатор позволяет извлекать морфологические характеристики каждого слова: часть речи, падеж, род и т. д.
Примечательно, что анализатор позволяет определить характеристики как для существующих словарных слов, так и, например, для выдуманного слова (например, слово «бутявковедами» библиотека определяет как одушевленное существительное множественного числа, творительного падежа, мужского рода). Становится возможной работа с текстами с необычной лексикой, которая не входит в использующийся библиотекой базовый словарь OpenCorpora. В психологических публикациях морфологический анализатор PyMorphy встречается, например, в исследованиях «Темных черт» [Dark personalities on, 2018] и субъективного благополучия [Ledovaya, 2020].
Важно отметить, что омонимия в данном методе не снята полностью. К некоторым словам предлагаются несколько вариантов морфологического разбора с указанием вероятности правдоподобия каждого из них на основе частотности. Например, слово «стали» может быть как глаголом, так и существительным. При этом глагол является более общеупотребительным и такой разбор имеет больший вес.
Методы анализа текстов делают возможной автоматическую идентификацию авторства (automatic authorship identification). Из текста может быть извлечена такая информация об авторе, как, например, пол [Automatically profiling the, 2009], возраст [“How Old Do, 2013], родной язык [Automatically profiling the, 2009], политическая ориентация [Pennacchiotti, 2011] и даже результаты методики с сомнительной славой в области психодиагностики — теста Майерс-Брикс [Noecker Jr].
Подобные задачи относятся к задаче классификации текстов. Для классификации текстов существует множество подходов и готовых решений, но они, к сожалению, не универсальны, поэтому исследователю, вероятно, нужно будет подбирать и применять классификатор, ориентирующийся на особенности данных для каждой конкретной задачи. Существующие модели для более общих задач можно найти в библиотеках Tensorflow и PyTorch, а для имплементации собственной модели имеет смысл также использовать библиотеки Python™ Gensim и SciKit.
Возможные источники данных и требования к исследовательским текстам
Достоверность и надежность получаемых результатов во многом зависит от размера и содержания выборки. Ниже мы рассмотрим основные источники текстовых данных, их возможные альтернативы, а также затронем проблему репрезентативности выборки.
Публикации в социальных сетях являются самым популярным источником данных в психологических исследованиях с задачей классификации текстов. Изучение поведения в социальных сетях в целом и текстовых публикаций в частности, как объектов исследований, относится к области киберпсихологии. Однако отмечается, что данные, например, Facebook и Twitter используются в социальных науках даже в тех случаях, когда исследовательские вопросы напрямую не относятся к использованию социальных сетей [Gaining insights from, 2016, с. 11]. В таком случае социальная сеть выступает исключительно как источник данных.
Так, например, активно создаются методы оценки психологических характеристик по текстам в социальных сетях, которые потенциально могли бы конкурировать с методами самоотчета. Примером такой альтернативы является психодиагностическая модель оценки на основе языка (language-based assessment) черт Большой пятерки по данным социальной сети Facebook [Kosinski, 2015]. Схожим образом стало возможным определение у более 6,5 тысяч русскоговорящих пользователей Facebook черт «Темной триады» [Dark personalities on, 2018] и сильных сторон характера у более 4 тысяч англоговорящих пользователей Twitter из разных стран [Slaff, 2020].
По мнению ряда исследователей, социальные сети, как источник данных, потенциально способны решить проблему нехватки респондентов в психологических исследованиях [Gaining insights from, 2016]. Пользователи социальных сетей ежедневно продуцируют бесчисленное количество данных, которые могут быть проанализированы. Интерпретация и формулирование гипотез для такого рода анализа пересекается с исследовательскими задачами психологии.
Таким образом, междисциплинарное сотрудничество с компьютерной лингвистикой открывает новые возможности как для психологии, так и для других социальных наук, а также для общей науки о данных (data science).
Безусловно, в качестве источников данных для анализа текстов в психологических исследованиях могут использоваться не только публикации и сообщения в социальных сетях. Так, например, к созданию программы LIWC привел исследовательский проект Джеймса Пеннебейкера по изучению экспрессивного письма: респондентов просили писать в свободной форме о травматических событиях в течение 15—20 минут на протяжении трех—пяти дней [Pennebaker, 1993]. Компьютерный анализ полученных эссе позволил выделить языковые паттерны, которые указывают на различные аспекты физического и психологического здоровья. Меньшее использование когнитивно нагруженных слов, большее количество слов о смерти и местоимений первого лица предсказывали увеличение симптомов посттравматического стрессового расстройства через 6 месяцев [Mehl, 2018].
Исследования эссе направлены на изучение различных феноменов. Примером может служить исследование, посвященное сравнению речи преступников с выраженной психопатией и речи преступников без нее. В результате были выделены такие лингвистические маркеры, как высокая отстраненность (например, фраза «вы знаете»), большое количество личных местоимений, редкое упоминание других людей и низкая эмоциональная выразительность, особенно низкое число слов, связанных с тревогой [The linguistic output, 2017]. Также встречаются исследования, направленные на изучение психических расстройств [Lyons, 2018], феномена переживания приближения смерти [Dying is unexpectedly], терроризма [Vergani, 2018], музыкальных предпочтений [Chen] и многих других направлений.
В качестве данных могут также использоваться художественные тексты (например, созданные поэтами, совершившими суицид [Stirman]), публикации в газетах [Ferraro, 2019], бланки проективных методик [Lanning, 2018] и многие другие.
Объем текстовых данных может включать не только собственные данные исследователя, но и большие корпусы. Так сервис Google Books на момент 2010 года уже включал в себя 12% всех когда-либо опубликованных книг в оцифрованном виде и доступен для исследователей [Ireland, 2014]. Особого внимания отечественных исследователей заслуживает Национальный корпус русского языка (НКРЯ), который включает в себя собрание различных текстов с подробной лингвистической разметкой: «от статьи современного музыкального критика до инструкции по уходу за кактусами, от рассказов Пелевина до справочника по физике» [Плунгян, 2005].
Множество технических инструментов различной сложности и источников данных разного объема потенциально становится мощным арсеналом психологических исследований и открывает широкие возможности, как для решения уже знакомых вопросов, так и для постановки методологически новых задач.
Однако в эмпирических исследованиях, связанных с анализом текстов, зачастую в недостаточной мере проработан аспект теоретического вклада.
В статье «Использование больших данных для развития теории личности» исследователи отмечают, что обращение к теории важно, как для повышения предсказательной силы методов машинного обучения, так и для интерпретации полученных результатов [Bleidorn, 2017]. При этом нередко акцент ставится именно на предсказательной силе [Wright, 2014]. Авторы отмечают, что из-за недостаточной проработки конструктной валидности методов компьютерной оценки становится затруднительной дальнейшая интерпретация результатов [11, с. 80].
Так, например, непонятно, как объяснить то, что люди с низким уровнем по шкале нейротизма чаще ставят лайки постам про способы заработка денег. Это приводит к тому, что большинство исследований в психологии личности, направленные на анализ текстовых данных, не вносят значительного теоретического вклада.
Таким образом, для того, чтобы исследование с использованием методов компьютерной лингвистики имело теоретический вес, необходимо учесть двойную модель (рис. 2): построить предположения на основе теории, а затем предложить подробную интерпретацию результатов с точки зрения выбранных теоретических позиций.

Рис. 2. Содержательная валидность результатов машинного обучения в социальных науках [адаптировано по: 11]
Заключение
Поисковые исследования, эмпирические проверки гипотез, построение теоретических моделей, методологические обзоры — каждое из возможных направлений психологического исследования допускает использование методов компьютерного анализа разнообразных текстовых данных.
Понимание различий и границ компьютерной лингвистики, естественной обработки языка и машинного обучения позволит психологу определить свой междисциплинарный исследовательский интерес относительно каждой из областей.
Проблемы, хорошо знакомые психологам и по другим областям исследований — репрезентативности выборки, адекватности источника данных целям исследования, теоретической проработки и интерпретации результатов — демонстрируют важность глубокого понимания не только технического аспекта, но и изучаемого феномена, а также методологии психологической науки в целом.
Подобные исследования, как правило, проводятся группами исследователей с привлечением специалистов по компьютерным наукам и компьютерной лингвистике. Даже базовые знания методов и инструментов в данной области знаний позволят психологу-исследователю строить междисциплинарное взаимодействие и предлагать сложные дизайны исследований.
В представленной статье освещены те инструменты и методы, которые одновременно современны и в достаточной степени проверены в работе с разнообразными текстовыми данными, что позволяет использовать их как надежную базу.
Безусловно, многие из технологий, которые также могут быть использованы в психологических исследованиях, не вошли в данный обзор. Новые модели и подходы продолжают создаваться и демонстрируют все большую предсказательную эффективность.