Личный кабинетuser
orange img orange img orange img orange img orange img
Дипломная работаИнформационные технологии
Готовая работа №110764 от пользователя Успенская Ирина
book

Алгоритм обработки и анализа текстовой информации на основе графовых моделей

510 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

ВВЕДЕНИЕ
1. Теоретические основы моделирования текстовых данных.
1.1. Особенности технологий NLP
1.2. Графовые модели
1.3. Представление дискурсивных отношений между
предложениями текста
1.4. Чаща разбора
1.5. Постановка задачи
2. Построение модифицированной графовой модели представления текстовой информации
2.1. Внедрение операции обобщения “чащ разбора”
2.2. Построение модифицированной графовой модели представления текстовой информации
3. Разработка алгоритма обработки и анализа текстовой информации на основе графовых моделей
3.1. Разработка алгоритма обработки и анализа текстовой информации
3.2. Использование алгоритма обработки и анализа текстовой информации для классификации технических документов
4. Создание программного приложения и вычислительный эксперимент
4.1. Программный комплекс, предназначенный для обработки “чащ
разбора”
4.2. Вычислительный эксперимент
ЗАКЛЮЧЕНИЕ

Весь текст будет доступен после покупки

ВВЕДЕНИЕ

Актуальность работы и ее разработка. Моделирование языковых процессов порождает значительное количество открытых проблем, связанных с развитием соответствующего математического аппарата, созданием и реализацией эффективных алгоритмов и комплексов программ. В настоящее время, разработано значительно количество развитых моделей текста, позволяющих вычислять сходство между текстами: “мешок слов”, n-граммы, синтаксические деревья разбора и другие [1]. Среди исследователей, которые внесли значительный вклад в разработку и применение этих моделей в прикладных задачах, можно отметить: C.Manning, D.Jurafsky, S.Abney, M.Collins, и многих других [2,3,4,5]. Подавляющее большинство реализованных на практике моделей не полностью учитывает структурные особенности текста, ограничиваюсь либо частотными характеристиками слов, либо синтаксическими связями внутри отдельных предложений. Эти модели не позволяют работать с текстом на уровне фрагментов, состоящих из нескольких связанных предложений - абзацев. К другому классу моделей относятся многочисленные лингвистические теории, учитывающие дискурсивные связи между предложениями. Здесь можно отметить работы таких исследователей как D. Marcu, W. Mann, J. Searle и многих других [6,7,8]. Однако эти модели не носят теоретический характер, не имеют полного математического или алгоритмического описания и не могут напрямую быть использованы для решения прикладных задач. В то же время учет дискурсивных связей внутри абзаца является критическим фактором в таких важных задачах, как поиск по сложным запросам, классификация текстовых описаний.

Весь текст будет доступен после покупки

отрывок из работы

1. Теоретические основы моделирования текстовых данных
1.1. Особенности технологий NLP

Анализ и моделирование текстовых данных естественного языка — это особая отрасль анализа данных, выделенная в отдельное научное направление — компьютерную лингвистику. Эту область часто также называют обработкой естественного языка [2]. К отличительным особенностям текста как объекта моделирования и анализа можно отнести:
1. Известные априори закономерности, которым подчиняется текст;
2. Неясность наблюдаемых закономерностей, большое количество исключительных ситуаций;
3. Наличие нескольких вложенных уровней анализа и представления текста;
4. Заметное изменение языковой среды с течением времени;
5. Большие объемы доступных, но разнородных данных для анализа;
6. Наличие экспертной оценки (любого носителя языка) при проверке модельных экспериментов.
Вышеуказанные особенности накладывают ряд ограничений и требований на разрабатываемые модели текстовых данных. Такая модель должна:
1. Учитывать выявленные в текстах фактические закономерности;
2. Учитывать формальные правила языка;
3. Быть достаточно гибкой, чтобы можно было вносить изменения и приспосабливать их к новым требованиям языковой среды;
4. Иметь привязку к определенным уровням представления текстовых данных.
Расположение уровней текстового моделирования можно организовать следующим образом;
1. Графематический анализ рассматривает текст как набор символов, объединенных в слова или лексемы. Основная цель анализа на этом уровне – выявление лексем [6];
2. Морфологический анализ текста основан на распознавании последовательности слов и их форм. В процессе анализа учитываются леммы слов и их грамматические особенности;
3. Синтаксический. На этом этапе анализируются синтаксические связи между словами в предложении или синтаксической структуре;
4. Семантическое исследование. Анализ внутренних связей в предложении. Проводится анализ смысловых связей внутри предложения, включая определение смысловых ролей, выявление синонимов и других аспектов.
Выбор конкретного уровня моделирования текста предполагает использование (или полное определение в рамках новой модели) моделей «нижних» уровней. Например, при работе с предложениями мы предполагаем, что у нас есть некие модели, позволяющие выделять отдельные слова из текстового массива, определять для этих слов части речи и т. д.
Таким образом, в выпускной квалификационной работе построена модель текста, относящаяся к синтаксическому и семантическому уровням, причем на сематическом уровне рассматриваются, в первую очередь, дискурсивные связи. Важно отметить, что модель включает в себя не только полное, но и приближенное, более эффективное с вычислительной точки зрения представление текстового абзаца, а также ассоциативную и коммутативную операцию вычисления сходства между текстовыми абзацами. Именно эти особенности модели и обуславливают ее новизну по сравнению с уже существующими моделями.

Весь текст будет доступен после покупки

Список литературы

-

Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных