Личный кабинетuser
orange img orange img orange img orange img orange img
Дипломная работаИнформатика
Готовая работа №124589 от пользователя Успенская Ирина
book

Исследование процессов и методов разработки компьютерных лингвистических систем на основе машинного обучения

2 125 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ 4
ВВЕДЕНИЕ 5
1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 6
1.1 Компьютерная лингвистическая система 6
1.2 Компьютерная морфология 6
1.3 Компьютерный синтаксис 13
1.4 Компьютерная семантика 20
2 ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В РЕШЕНИИ ЗАДАЧ КОМПЮТЕРНОЙ ЛИНГВИСТИКИ 28
2.1 Формализация задачи машинного обучения в общем виде 28
2.2 Специфические задачи машинного обучения 29
2.3 Алгоритмы машинного обучения 31
2.4 Искусственные нейронные сети 36
3 РАЗРАБОТКА МОДЕЛИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИЧЕСКОЙ СИСТЕМЫ 53
3.1 Выбор решаемой задачи 53
3.2 Использование предобученной модели 53
3.3 Выбор модели для дообучения 54
3.4 Подготовка данных 59
3.5 Выбор и описание корпуса текстов 59
3.6 Предобработка данных 62
3.7 Дообучение модели 64
3.8 Оценка качества модели 71
ЗАКЛЮЧЕНИЕ 76
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 77
ПРИЛОЖЕНИЕ А 81

Весь текст будет доступен после покупки

ВВЕДЕНИЕ

Прикладная лингвистика – бурно развивающаяся в настоящий момент область лингвистики, традиционно понимаемая как деятельность по приложению научных знаний об устройстве и функционировании языка в нелингвистических научных дисциплинах и в различных сферах практической деятельности человека, а также теоретическое осмысление такой деятельности.
Особую важность в связи с развитием информационных технологий приобретает область компьютерной лингвистики. Одним из ключевых ее разделов в настоящее время является проблематика обработки письменных текстов на естественном языке (Natural Language Processing, NLP. Важнейшими компонентами современных компьютерных систем анализа и обработки языковых данных (компьютерных лингвистических систем, КЛС) являются методы машинного обучения (МО). Развитие КЛС на основе МО открывает новые возможности для решения сложных задач в области лингвистики и информатики, таких как автоматическая суммаризация текстов, проверка подлинности, оценка тональности текстов, текстовая генерация.

Весь текст будет доступен после покупки

отрывок из работы

1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
1.1 Компьютерная лингвистическая система
Под компьютерной лингвистической системой (КЛС) в данной работе понимается программное решение или же совокупность программных продуктов, использующих методы обработки и анализа текста на естественном языке (natural language processing, NLP) с целью выполнения прикладных задач. Список этих задач достаточно разнообразен и включает в себя машинный перевод, извлечение информации, анализ тональности текста, информационный поиск, диалоговые и чат-боты и т. д. В классических КЛС операции с текстом выполняются по принципу конвейера: обработка текста начинается с разбивки на слова и предложения (токенизация, леммизация), частеречную разметку и определение границ фраз, за что отвечает компьютерная морфология, далее подключается синтаксический анализ с построением грамматики (парсинг), заключительным этапом, как правило, является выделение смысловых сущностей – семантический анализ [1]. В современных системах, основанных на использовании алгоритмов машинного обучения и статистического анализа, вышеуказанные этапы зачастую объединяются в единый процесс, что стало возможным благодаря внедрению новых технологий, таких как модели на основе трансформеров (GPT, BERT и аналогичные), использующих принципиально новые механизмы.
Подробнее о машинном обучении в компьютерной лингвистике повествует второй раздел данной работы. Для начала необходимо подробно ознакомиться с теоретическими основами компьютерной лингвистики.
1.2 Компьютерная морфология
Морфология – раздел лингвистики, изучающий структуру слов и их морфологические характеристики. Компьютерная морфология синтезирует и анализирует слова программными средствами. В общем виде морфологический анализ представляет собой определение леммы – базовой канонической формы слова – и его грамматических характеристик. В области автоматической обработки данных используется термин «нормализация» - постановка слова в каноническую форму без выделения грамматических характеристик. Обратная задача называется порождением словоформы [1].

Весь текст будет доступен после покупки

Список литературы

1. Митренина О. В., Ландо Т. Н. Прикладная и компьютерная лингвистика. – М.: Изд-во МГУ, 2015. – 320 с.
2. Дьяконов А. Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab. – М.: МАКСПресс, 2012. – 278 с.
3. Jurafsky, D., & Martin, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. – Prentice Hall, 2009. – 1024 p.
4. Han J., Kamber. M., Pei J. – Data Mining. Concepts and Techniques. – Elsevier, 2012. – 703 p.
5. Manning, C. D., & Schutze, H. Foundations of Statistical Natural Language Processing. – MIT Press, 2019. – 736 p.
6. Bird, S., Klein, E., & Loper, E. Natural Language Processing with Python. – O'Reilly Media, 2013. – 416 p.
7. Indurkhya, N., & Damerau, F. J. Handbook of Natural Language Processing. – CRC Press, 2010. – 944 p.
8. Chomsky N. Syntactic Structures / N. Chomsky. — 2nd ed. — The Hague: Mouton, 2002. — 117 p.
9. Hopcroft J. E. Introduction to Automata Theory, Languages, and Computation / J. E. Hopcroft, R. Motwani, J. D. Ullman. — 3rd ed. — Boston: Pearson, 2006. — 535 p.
10. Powers D. M. W. Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation / D. M. W. Powers. — Journal of Machine Learning Technologies. — URL: https://www.flinders.edu.au/science_engineering/fms/TCO/papers/Evaluation.pdf (дата обращения 18.09.24)

Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных