Глава 1. Метод корпусного исследования контекстов
1.1 Понятие «корпус» в области лингвистики
Основой каждого исследования подразумевает наличие эмпирических данных для исследования лингвистических теорий. В настоящее время самым актуальным методом при сборке и анализе практического материала является корпусная лингвистика.
Корпусная лингвистика как отдельный раздел языкознания берет начало в середине XX века и окончательно образовалась в 90-е годы.
Так как наука достаточно новая, понятийный аппарат корпусной лингвистики хоть и стал формироваться в процессе создания раздела, но конкретизируется гораздо позднее и в настоящее время в процессе развития.
Главный инструмент, без которого корпусное исследование не реализуется, это корпус данных. По определению термин «корпус» в лингвистическом поле – это собрание текстового материала, обобщённые по определенным параметрам. Ключевым свойством корпуса является его репрезентативность, т.е. степень соответствия черт и свойств выбранных единиц характеристикам, свойственным всей генеральной базе данных в целом. Как правило, корпусные данные хранятся в электронном виде и находятся в открытом доступе. По мнению исследователя В.П. Захарова, который определяет корпус большим электронным массивом, структурированном и размеченном, представленном в электронном формате и предназначенного для решения определенных задач. Первый корпус был создан на материале английского языка, но в скором времени начали создаваться и на других языках. Первый известный корпус – Brown Corpus, был создан в Брауновском университете в США в 1963 году. Тексты, внесенные в массив, относились к жанрам английской печатной прозы. Позже последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. В России первым корпусом с синтаксической разметкой был Taiga, который создан в формате Universal Dependencies. Данный проект является международным. Его цель заключалась в унификации синтаксических корпусов в пределах грамматики зависимостей. На сегодняшний день самым популярным и обширным по масштабам охваченности информации является Национальный корпус русского языка, созданный в 2003 году группой филологов институтов Москвы, Санкт-Петербурга и Воронежа. В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед) . Что касаемо периода, охваченного корпусом, то он охватывает со времени восточнославянских памятников до первых десятилетий XXI века. НКРЯ охватывает большой объем как художественных, так и речевых жанров: публицистические, научно-популярная литература, устная речь, переписки и т.д. Важно отметить, что данный корпус включает в себя собрание корпусов: основной, поэтический, акцентологический, синтаксический, обучающий и т.д.
Значимость корпусного исследовании заключается в том, что раскрывается возможность наблюдения за редкими языковыми явлениями для отслеживания динамики изменения значений языковых единиц и проверки гипотез о языковых изменениях. Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:
1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.
В общем, спектр применения корпусных данных достаточно обширный. Преимуществами считаются доступность корпусов в электронном формате; наличие или отсутствие разметки, которая включает в себя информацию об авторе и тексте; наличие широкого контекста, их множество и варианты словоупотреблений. Помимо этого, так же будет считаться привилегией простота эксплуатации. Недостатком будет считаться разве что доминирование письменных текстов в существующих корпусах, что ограничивает изучение устной коммуникации.
В заключении можно сказать, что корпус представляет собой электронный вид исходных текстов и, опираясь на данные, мы можем объективно оценивать ситуативное использование лексических единиц. Многообразие форм существования языка стало более наглядным с момента создания ресурса, соответственно расширились горизонты исследования данных.
Весь текст будет доступен после покупки