Личный кабинетuser
orange img orange img orange img orange img orange img
Дипломная работаИнформационные технологии
Готовая работа №58510 от пользователя Балашов Виктор
book

МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБРАБОТКИ И КЛАССИФИКАЦИИ СЛАБОСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ

1 760 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

Введениие 4
1 Задачи классификации текста и алгоритмы 7
1.1 Алгоритмы классификации текстовых данных 9
1.2 Описание задачи классификации текста 12
1.3 Выбор используемых алгоритмов машинного обучения для классификации слабоструктурированных текстовых данных 19
1.4 Циклы интеллектуального анализа данных 34
2 Анализ текстовых классификаторов 37
2.3 Критерии выбора классификатора 37
2.4 Выбор фреймворка для обучения 38
2.5 Обзор библиотек Python для решения задач 45
2.6 Выводы 48
3 Разработка категоризатора прайс-листов аптек 49
3.3 Работа с датасетом 57
3.4 Написание программы (модуля) для обучения модели 57
3.5 Разработка приложения (модуля) 57
Заключение 59
Список используемых источников 63
ПРИЛОЖЕНИЕ А 67


Весь текст будет доступен после покупки

ВВЕДЕНИЕ

В нынешнее время применение интеллектуальных систем, алгоритм которых основан на машинном обучении широко распространено в различ-ных областях жизнедеятельности человека. Данные алгоритмы позволяют решать достаточно широкий спектр ежедневных задач, возникающих при работе с данными. К этим задачам относят кластеризацию, прогнозирование, классификацию и прочее. В основе алгоритмов машинного обучения лежит принцип построения специальной модели, которая обучается под конкретную решаемую задачу в процессе движения к выводу какой-либо схожей задачи. Конечная модель способна эффективно решать поставленную перед ней задачу, что обуславливает популярность данного вила алгоритмов.
Другим преимуществом использования алгоритмов машинного обучения является повышение уровня автоматизации задач, которые сейчас приходится решать специалисту с помощью умственного труда. При этом сами задачи зачастую не требуют глубоких знаний от специалиста, то есть данный вид работ способен выполнять практически любой человек после непродолжительного обучения. Проблемой при разработке программных решений, обеспечивающих автоматизацию подобных задач, является слабый уровень формализации самой задачи, что серьезно ограничивает круг доступных алгоритмических решений. Алгоритмы машинного обучения эффективно справляются с такими видами задач, поскольку для эффективного обучения и дальнейшей работы им достаточно предоставить примеры «корректной работы», без строгой формализации и ручного выявления закономерностей. К множеству таких слабо формализованных задач относится классификация текста.

Весь текст будет доступен после покупки

отрывок из работы

1 Задачи классификации текста и алгоритмы

Методы классификации текстов лежат на стыке двух областей – ин-формационного поиска и машинного обучения. Их сходство состоит в способах представления самих документов и способах оценки качества алгоритмов. На сегодняшний день разработано большое количество методов и их различных вариаций для классификации текстов. Каждая группа методов имеет свои преимущества и недостатки, области применения, особенности и ограничения. Особый интерес представляет случай, когда данные поступают в виде потока, например в телекоммуникационных сетях. Определенные трудности возникают из-за того, что обучение модели всегда основывается на совокупности свойств набора документов. Эти совокупные свойства могут изменяться с течением времени, и при построении потокового классификатора необходимо учитывать возможные изменения исходного распределения данных [1]. Желательно, чтобы выбранный метод мог поддерживать инкрементное обучение, то есть чтобы классификатор обучался на каждом отдельно взятом образце в режиме реального времени. При инкрементном обучении обучающие примеры поступают последовательно в процессе работы алго-ритма, так что классификатор должен постоянно корректировать результаты обучения и дообучаться. При неинкрементном обучении вся обучающая выборка предоставляется сразу полностью. Ясно, что в случае инкрементного обучения поведение классификатора в процессе работы меняется, что уменьшает его предсказуемость и может осложнить настройку системы. В то же время инкрементное обучение делает систему гораздо более гибкой, адаптируемой к изменяющимся условиям.

Весь текст будет доступен после покупки

Список литературы

1. Wang. Automating document classification for the Immune Epitope Database / P.Wang, A. Morgan, Q. Zhang and others // BMC Bioinformatics[сайт]. – 2007. – URL:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-269
2. Machine Learning // Машинное обучение[сайт]. – 2023. – URL: https://machinelearningmastery.com/types-of-classification-in-machine-learning/ (дата обращения: 10.05.2023)
3. Tung A.K.H. Rule-based Classification // Encyclopedia of Database Systems. Springer, Boston, MA.
4. Юлий Васильев Обрабобтка естественного языка питон и спаки
https://www.nkj.ru/archive/articles/389/
5. К.В. Воронцов. Лекции по методу опорных векторов // Вычислительный центр им. А.А. Дородницына Российской академии наук Федерального исследовательского центра «Информатика и управление» Российской академии наук, 2007.
6. Меркулов В.Д., Мирзоева М.Р. Влияние алгоритмов стемминга и лемматизации на эффективность работы текстового классификатора // Студенческие дни науки в ТГУ. – Тольятти: Тольяттинский государственный университет, 2023.
7. Машина опорных векторов [сайт] // MachineLearning.ru. – URL: http://machinelearning.ru/wiki/index.php?title=Метод_опорных_векторов (дата обращения: 06.06.2023).
8. Метрики в задачах машинного обучения [сайт] // Блог компании Open Data Science. – URL: https://habr.com/ru/company/ods/blog/328372/ (дата обращения: 19.03.2023).
9. CountVectorizer [сайт] // scikit-learn 0.21.2 documentation. – URL: https://scikitlearn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.ht ml (дата обращения: 10.05.2023).

Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных