Язык и текст
2014. Том 1. № 1. С. 1–11
ISSN: 2312-2757 (online)
В ожидании другой лингвистики: идея национального корпуса и «революция» в языкознании
Аннотация
Общая информация
Ключевые слова: корпусная лингвистика, Британский национальный корпус, контекст
Рубрика издания: Общее и сравнительно-историческое языкознание
Тип материала: научная статья
Для цитаты: Перевезенцева Ю.С., Атрощенко С.А. В ожидании другой лингвистики: идея национального корпуса и «революция» в языкознании [Электронный ресурс] // Язык и текст. 2014. Том 1. № 1. С. 1–11. URL: https://psyjournals.ru/journals/langt/archive/2014_n1/67245 (дата обращения: 13.12.2024)
Полный текст
В последнее время у многих ученых-филологов интерес вызывает вопрос о перспективах развития лингвистического познания. Не исключено, что одной из причин его возникновения стало содержание лекции известного российского лингвиста В.А. Плунгяна, в которой он достаточно категорично высказывает мысль о том, что «современная
лингвистика должна быть лингвистикой корпусов. Корпус позволяет понять, каков язык на самом деле, а не каким мы хотим, чтоб он был. Корпус произвел колоссальную революцию. Корпус вернул лингвистике ее настоящий, полноправный объект» [3]. Позиция В.А. Плунгяна нашла большой отклик, особенно среди методистов и преподавателей иностранного языка. Появилось достаточное количество научных статей, сообщающих о важности и нужности использования корпусов в обучении [1; 4; 5]. Основные их преимущества были изложены в учебном пособии В.П. Захарова «Корпусная лингвистика»:
1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
3) однажды созданный и подготовленный массив данных может использоваться многократно многими исследователями и в различных целях;
4) спрос на корпусные данные совпал с появлением соответствующих технических возможностей [2, с. 3-4].
Однако нельзя забывать, что вышеизложенные преимущества в ряде случаев могут являться таковыми лишь в теории. Процесс формирования корпуса чрезвычайно трудоемкий (можно вспомнить Чешский национальный корпус, с созданием которого возникло множество трудностей; Национальный корпус русского языка, работа над которым ведется уже достаточно продолжительный период). В силу обстоятельств, любой проект корпуса может оказаться неприемлемым или не до конца реализованным. Кроме того, о корпусах нельзя говорить в общем и целом. Каждый из них по-своему уникален и поэтому заслуживает отдельного внимания и обсуждения.
В данной статье мы обратимся к наиболее известному корпусу английского языка, по образцу которого создавались многие другие, - Британскому национальному корпусу - British National Corpus (BNC) [6]. Вопрос о том, насколько данный корпус может оправдать исследовательские ожидания лингвистов и помочь в обучении языку, для нас станет основополагающим. Для его решения мы предлагаем охарактеризовать корпус в целом и на примере лексемы ring изучить его возможности. По результатам мы, возможно, поймем, для чего предназначен BNC, а соответственно и ряд других корпусов, созданных на его основе: для исследовательской работы или для освоения языковых навыков.
Объем корпуса составляет 100 млн. слов. Разработан он был в Оксфордском университете при участии Ланкастерского университета и Британской библиотеки. Работа над созданием корпуса продолжалась с 1991 по 1994 год. Тексты, представленные в Британском национальном корпусе, отбирались по трем основным критериям: время, область, которую данный текст описывает, и тип издания. По времени все тексты принадлежат примерно одному периоду, начиная с 1975 года, исключения делались только для развлекательной литературы, поскольку некоторые из произведений очень популярны и по сей день. В BNC присутствуют литературные произведения с 1964 года, что подтверждает синхроничность корпуса. К области развлекательной литературы принадлежит 25% текстов. 75% письменных текстов были взяты из информативных изданий (наука, искусство, коммерция и финансы, досуг, социология, мировое обозрение). Учитывались также размер (количество слов), тема, обсуждаемая в тексте, имя автора, возраст, пол, место рождения, место жительства, возрастная группа людей, которым предназначен данный текст, а также уровень сложности данного текста.
Подкорпус, представляющий письменный английский язык, включает в себя газеты, периодические научные издания и журналы, издаваемые для различных возрастов, популярную научную фантастику, опубликованные и неопубликованные письма, школьные и университетские сочинения и другое.
Подкорпус устной речи включает речь добровольно вызвавшихся участвовать в проекте людей различных возрастов, проживающих в разных частях Великобритании и принадлежащих к различным социальным слоям. Разговорная речь представлена в окружении множества контекстов: от речи формальных деловых или правительственных встреч до радио-шоу и телефонных разговоров.
Все тексты Британского национального корпуса сегментированы на предложения. Словам внутри предложения присвоены соответствующие маркеры, обозначающие грамматический класс слова или его часть речи.
Весь подкорпус устной речи разделен на две примерно равные части:
1) демографическую часть, содержащую транскрипции спонтанных, естественных диалогов,
2) контекстно-управляемую часть (часть, в которой важную роль играл контекст), содержащую записи, сделанные на каких-либо публичных мероприятиях.
Полный доступ к корпусу в режиме on-line отсутствует. В этом режиме доступны далеко не все возможности поискового интерфейса, поставляемого вместе с полной версией корпуса, выдача ограничивается 50 случайными примерами.
Существует доступ к версии корпуса, разработанной Марком Дэвисом [7]. Далее проиллюстрируем возможности корпуса BNC на примере лексемы ring, поскольку таковая является одной из наиболее употребляемых в английском языке. Это подтверждают данные о частотности ring в корпусе, составляющие около 6694 случаев.
Сравним частотность ring в разных регистрах. Таблица 1 включает непосредственные подсчеты и нормированные подсчеты. Непосредственные подсчеты показывают количество случаев встречаемости слова в каждом регистре. Однако эти регистры включают различное количество слов. По этой причине сравнение непосредственных подсчетов нельзя использовать как критерий для вывода о большей или меньшей частотности слова в одном регистре по сравнению с другим. Достоверные основания для сравнения по регистрам обеспечивают нормированные подсчеты, которые преобразуют количество случаев встречаемости слова по стандартной шкале, обычно в пересчете на 1 млн. словоупотреблений.
Таблица 1.
Частотность RING в определенных регистрах, нормированная на 1 млн. слов
Регистр |
Примерное количество слов в регистре |
Непосредственны е подсчеты |
Нормированны е подсчеты |
Разговорная речь |
9.963.663 |
1558 |
156,37 |
Художественная литература |
15.909.312 |
1920 |
120,68 |
Журналы |
7.261.990 |
515 |
70,92 |
Газеты |
10.466.422 |
694 |
66,31 |
Научно-популярная литература |
16.495.185 |
634 |
38,44 |
Научная литература |
15.331.668 |
301 |
19,63 |
Разное |
20.835.159 |
1072 |
51,45 |
Как видно из таблицы 1, наибольшей является частотность слова ring в разговорной речи (156,37).
Программа конкордансов может создавать список частотности слов, который обычно представляется в алфавитном порядке, по порядку встречаемости слова. В корпусе можно произвести подсчеты частотности для каждой грамматической формы слова (рис.1). Так, на 1000 примеров словоупотребления слово ring встречается как нарицательное существительное 592 раза, как имя собственное - 4 раза, как глагол - 404 раза.
Рис.1
Лексема ring образует большое число сочетаний. Проанализируем коллокаты (collocates) слова. Для каждой коллокации (collocation) существует сильная тенденция ассоциироваться с одним смыслом или значением. Поэтому, выделяя наиболее частые коллокации слова, можно проанализировать его значения.
В таблице 2 приведены коллокаты из 100-словного списка для слова ring в регистрах: научная литература и художественная литература.
Таблица 2.
Частые коллокаты ring в двух регистрах корпуса
Научная литература |
Художественная литература |
Левые коллокаты |
inner |
13 |
‘ll |
99 |
wedding |
11 |
wedding |
52 |
outer |
8 |
engagement |
19 |
gold |
7 |
gold |
19 |
Правые коллокаты |
|||
road |
3 |
me |
55 |
laser |
3 |
him |
46 |
electrodes |
3 |
back |
26 |
round |
3 |
round |
16 |
Из данных, представленных в таблице, следует, что слово inner является наиболее частым левым коллокатом для ring в научной литературе, а me - частым правым коллокатом в художественной литературе.
Корпусы позволяют исследовать значения слов путем использования конкордансов. Анализ смыслов слова можно проверить, просмотрев списки конкордансов, которые показывают данные словосочетания.
В корпусе BNC информация о лексеме и ее коллокатах представлена следующим образом. По каждому регистру указывается source information - источник информации, включающий дату, а также expanded context - расширенный контекст.
Например, для коллокатов ring в художественной литературе можно отметить интересные сходство и различия со словосочетаниями в научной литературе. Так, совместная встречаемость wedding ring (явно в значении - обручальное кольцо) и gold ring (в значении - золотое кольцо) очень похожа в двух регистрах. Сказанное иллюстрируют следующие примеры конкордансов:
Однако коллокация ring round является примером того, как пара сочетающихся слов может ассоциироваться с разными смыслами в разных регистрах. Рассмотрим примеры
конкордансов:
Как видно из приведенных примеров в художественной литературе пара ring round, по-видимому, используется в значении глагола «окружать», а в научной литературе - в значении существительного с предлогом «кольцо вокруг».
Важнейшим типом парадигматических отношений в лексике являются семантические, а соответствующие им объединения слов по значению на основе их тесной взаимосвязи и взаимозависимости в содержательном плане, исходя из той или иной связи обозначаемых ими понятий, занимают первостепенное место в анализе лексики. В таблице 3 представлена информация о взаимных оценках для коллокатов (The Mutual Information score for the collocates). Как правило, оценка 3,0 или выше показывает семантическую связь в паре.
Таблица 3.
Взаимная оценка для коллокатов слова ring
Коллокаты |
Процент от всех вхождений коллоката со словом ring |
Взаимная оценка |
Левые коллокаты |
||
‘ll |
0.28 |
5.34 |
wedding |
4.41 |
9.31 |
engagement |
4.77 |
9.42 |
inner |
1.10 |
7.30 |
gold |
0.54 |
6.27 |
outer |
1.35 |
7.60 |
Правые коллокаты |
||
me |
0.11 |
3.98 |
road |
0.48 |
6.11 |
him |
0.07 |
3.41 |
back |
0.07 |
3.26 |
round |
0.12 |
4.13 |
electrodes |
1.66 |
7.90 |
laser |
0.30 |
5.43 |
В целом, Британский национальный корпус создает ощущение погруженности в стихию языка из-за привлечения его составителями разных типов источников. Благодаря корпусу, исследователь-филолог, человек, изучающий язык, может увидеть многообразие употребления английских слов (нами была рассмотрена одна из наиболее часто используемых лексем - ring), причем в самых различных сферах человеческой жизни. Однако в упомянутом преимуществе кроется и серьезный недостаток: работающий с корпусом вынужден понимать речь абсолютно разных человеческих сообществ, что порой © 2007-2013 ГБОУ ВПО «Московский городской психолого-педагогический университет» весьма трудно. Более того, следует допускать, что некоторые из значений лексемы успели устареть, поскольку корпус создавался 19 лет тому назад и, исходя из его общей характеристики, не обновлялся. Иными словами, корпус статичен и потому не способен точно указать на текущее состояние развития языка, что может стать серьезным упущением для ученого-лингвиста. Для человека, который не имеет достаточных языковых навыков, корпус неудобен тем, что требует от него невероятных интеллектуальных усилий, чтобы растолковать из обрывков тестов слова или целые выражения. При изучении языка для общения на бытовом уровне представляется более удобным обратиться к словарю, чем выполнить трудоёмкие манипуляции по интерпретации контекстов. В этой связи корпусные технологии, имея, несомненно, преимущества, все же пока не могут претендовать на то, чтобы стать новой парадигмой обучения английскому языку или его исследования.
Литература
- Yevstignejev V.N. Struktura IKT-kompetentnosti uchitela inostrannogo jazika [Structure of the foreign language teacher IKT- competence] // Jazik I kultura [Language and culture]. 2011 № 1. Р. 119-125.
- Zakharov V.P. Korpysmaya lingvistika [The linguistics of the Corpuses]. St-Petersburg: 2005. Р. 3-4.
- Plungan V.A. Pochemu sovremennaja lingvistika dolzhna bit lingvistikoj korpusov [Why the modern linguistics must be the linguistics of the Corpuses] [Elektronnij resurs] // // Publichnije lekciji na Polit.ru.. [Moscow, 2009]. Available at:h http://www.polit.ru/lectures/2009/10/23/corpus/html (Accessed 13.08.2013).
- Sisojev P.V. Lingvisticheskij korpus v metodike obuchenija inostrannim jazikam [The linguistics Corpus in the methods of the foreign language training] // Jazik I kultura [Language and culture]. 2010. № 1. Р. 99-111.
- Chernakova T.A. Ispolzovanije lingvisticheskogo korpusa v obucheniji inostrannomu jaziku [Usage of the linguistics Corpus in the foreign language training] // Jazik I kultura [Language and culture]. 2011. № 4. Р. 127-132.
- British National Corpus [Elektronnij resurs] // Sajt British National Corpus . Available at: http://www.natcorp.ox.ac.uk/ (Accessed 15.08.2013).
- BYU-BNC British National Corpus [Elektronnij resurs] // Sajt British National Corpus . Available at: http://corpus.byu.edu/bnc/ (Accessed 15.08.2013).
Информация об авторах
Метрики
Просмотров
Всего: 1974
В прошлом месяце: 7
В текущем месяце: 2
Скачиваний
Всего: 1200
В прошлом месяце: 2
В текущем месяце: 1