Личный кабинетuser
orange img orange img orange img orange img orange img
Курсовая работаИнформационные технологии
Готовая работа №80419 от пользователя Успенская Ирина
book

Машинное обучение в машинном переводе.

420 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

Оглавление
1. Введение 4
2. Подготовка набора данных 5
2.1 Описание набора данных 5
2.2 Обработка набора данных 6
2.3 Подготовка данных для машинного обучения 6
3. Теоретическая справка 8
3.1. DecisionTreeClassifier 8
3.2. Метод k-ближайших соседей 8
3.3. Долгая краткосрочная память (LSTM) 8
3.4. API 9
3.5. Метрики эффективности 10
4. Перевод (способ 1) 12
5. Результаты перевода (способ 1) 15
6. Перевод (способ 2) 19
7. Результаты перевода (способ 2) 20
8. Заключение 21
Список Литературы 22
Интернет-Ресурсы 22
Приложения 23
Приложение 1. Характеристики используемого компьютера. 23
Приложение 2. Коды программ 23

Весь текст будет доступен после покупки

ВВЕДЕНИЕ

В XXI веке большинство людей когда-либо пользовались такими сервисами как Яндекс.Переводчик или Google Translate. Эти сайты или приложения могут помочь во многих сферахжизни: учеба, работа, перевод инструкции, написанной на другом языке,помощь иностранному туристу. Подобные сервисы можно установить на каждый смартфон или даже на «умные» часы. Даже если память девайса заполнена всегда можно воспользоваться онлайн-переводчиком. Именно сейчас можно наблюдать, как с каждым годом компьютерный перевод становится все лучше и лучше. Предложения становятся грамматически более правильными, а словапо контексту более подходящими. Но как же это происходит?
Google Translate, Яндекс.Переводчик и другие подобные сервисы основаны на пересечении машинного обучения и математической лингвистики (обработка естественного языка – Natural Language Processing, NLP). В данной курсовой работе будет поднята именно тема машинного перевода в машинном обучении. Разработка будет вестись на языке программирования Python (Версия 3.7.1) на платформе Google Colaboratory и Jupyter Notebook.

Весь текст будет доступен после покупки

отрывок из работы

Подготовка метода набора данных
2.1 Описание набора данных
В качестве набора данных был выбран файл, в котором содержатся различные фразы на английском и русском языках. Начало датасета (см. Рисунок 1).

Рисунок 1
В начале датасета содержатся слова, а в конце уже предложения (см. Рисунок 2)

Рисунок 2
Файл содержит 399919 строк, из которых 0 строк с пропущенными значениями. Все строки имеют тип object (см. Приложение 2 «Перевод 1»). Результат работы программы, которая помогает отразить информацию о датасете можно увидеть на Рисунке 3.

Рисунок 3
2.2 Обработка набора данных
После необходимого анализа данных можно приступать к обработке файла. Необходимо разбить файл на 2 блока, один из которых будет содержать слова и предложения на английском языке, а другой соответственно на русском.
Кроме этого необходимо преобразовать текст к какому-то одному регистру, чтобы не было ошибок при считывании одинаковых слов, но написанных в разном регистре. Был выбран нижний регистр, как наиболее подходящий. Хотя при выборе верхнего регистра существенных изменений не было бы. Также была удалена пунктуация в предложениях.
2.3 Подготовка данных для машинного обучения
Для обработки естественного языка необходимо пройти несколько обязательных этапов. Обычно алгоритмы машинного обучения имеют дело с векторами в пространстве Rn. Текст разбивается на отдельные части — токены, которыми могут быть как символы, буквы, знаки препинания, так и слова, и даже целые предложения. Данный процесс называется токенизацией. Далее следует этап, когда каждый токен необходимо преобразовать в число, то есть на этом шаге происходит преобразование атрибутов исходного датасета в числовые признаки (векторизация текста). Существует несколько подходов векторизации. Однако в данной работе был выбран метод, называемый числовым кодированием.
Пример проведенного преобразования. Небезызвестное предложение из монолога пьесы «Гамлет» Уильяма Шекспира «to be or not to be» будет преобразована в вектор (см. Рисунок 4) с помощью функции encode_sequences (см. Приложение 2 «Перевод 1»).

Рисунок 4
Слово «to» преобразовалось в 1, «be» - 2, «or» - 3, «not» - 3. Подобным образом и произошла векторизация так называемого англо-русского словаря (датасета). Таким образом, датасет готов к обучению.

3. Теоретическая работы справка
3.1. DecisionTreeClassifier
Метод деревьев является одним из самых распространенных и понятных классификаторов. В качестве дерева рассматривается ацикличный граф, по которому производится классификация объектов. В узлах дерева находятся условия ветвления. Такой подход является нечисловым (символьным) алгоритмом.
3.2. Метод k-ближайших соседей
Данный метод является одним из самых простых классификаторов. Он основан на сходстве объектов, отсюда и пошло название. Объект будет определяться именно к тому классу, к которому определен ближайший к нему «сосед». В методе k-ближайших соседей к k соседям. Главным минусом данного метода является долгая итерация, что приводит к большому количеству времени, требуемому на прогонку кода.

Весь текст будет доступен после покупки

Список литературы

1. Коротеев М.В. Технологии анализа данных и машинное обучение // М: Финансовый университет при правительстве РФ, 2018.48 c
2. W. McKiney. Pandas: powerful Python data analysis toolkit, 2016, 1971 c

Интернет-Ресурсы
1. Нейронные сети: [Электронный ресурс].
URL: ошибка https://neurohive.io/ru (28.10.2020)
2. Github: [Электронный ресурс].
URL: https://github.com/ (05.11.2020)
3. IT библиотека: [Электронный ресурс].

Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных