Личный кабинетuser
orange img orange img orange img orange img orange img
Дипломная работаРазное
Готовая работа №53752 от пользователя Успенская Ирина
book

Распознавания текста на сцене

1 475 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

ВВЕДЕНИЕ……………………………………………………………………….4
1 Обзор литературы……………………………………………………………...7
1.1 Подходы к распознаванию текста на сцене………………………………..7
1.1.1 Старые подходы для распознавания текста на сцене………………9
1.1.2 Современные подходы для распознавания текста на сцене………..9
1.2 Трансформер………………………………………………………………12
1.2.1 Зачем был придуман трансформера………………………………..12
1.2.2 Как устроен трансформер…………………………………………..13
1.2.3 Как обучается трансформер………………………………………...29
1.2.4 Что дает архитектура трансформера в задачи распознавания текста на сцене…………………………………………………………………….32
1.3 Архитектура трансформера из статьи Image2Smiles…………………….35
1.3.1 Описание архитектуры……………………………………………...36
1.3.2 Отличие от Vision Transformer……………………………………...36
2 Проведение экспериментов и результаты ………………………………...37
2.1 Данные……………………………………………………………………..37
2.2 Модель YoloV5……………………………………………………………37
2.2.1 Метрики качества YoloV5…………………………………………..38
2.2.2 Пример работы модели YoloV5…………………………………….39
2.3 Ориентированная YoloV5………………………………………………...42
2.3.1 Метрики качества ориентированной YoloV5……………………...42
2.3.2 Пример работы ориентированной модели YoloV5………………..43
2.4 Практическая часть………………………………………………………..45
2.4.1 Распознавания автомобильных номеров…………………………..45
2.4.2 Обучение модели……………………………………………………47
2.4.3 Результат работы моделей по распознаванию автомобильных номеров…………………………………………………………………….48
ЗАКЛЮЧЕНИЕ………………………………………………………………...52
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ……………………….53

Весь текст будет доступен после покупки

ВВЕДЕНИЕ

Оптическое распознавание символов — это технология для перевода изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере. Оптическое распознавание работает путем анализа изображения документа и идентификации каждого символа, а затем преобразования его в машинный текст. Оптическое распознавание текста обычно используется при сканировании документов, оцифровке и архивировании.
Распознавание текста на сцене - это задача компьютерного зрения, которая извлекает текст из изображений естественных сцен, таких как уличные знаки, рекламные щиты и витрины магазинов. Распознавание текста на сцене является важным инструментом в различных областях, где требуется обработка большого объема информации, которая представлена в текстовой форме. Таким образом при сложных сценах OCR не является эффективным решением для извлечения текста из изображения.
Однако, задача распознавания текста на сцене не является простой, так как текст может находиться в разных условиях освещения, разрешении, на разных фонах, иметь разные шрифты и т.д. Поэтому, разработка эффективных алгоритмов для распознавания текста на сцене является актуально по сей день.
В современном мире, где большое количество информации представлено в текстовой форме, распознавание текста на сцене может быть использовано в различных приложениях, таких как системы безопасности, автоматическое распознавание номеров автомобилей на дорогах, распознавание адресов на почтовых ящиках, системы автоматической идентификации товаров на складах и т.д. В нашей работе рассмотривается частный случай распознавание текста на сцене для автомобильных номеров.
Распознавание номеров используется в различных приложениях, таких как контроль скорости на дорогах, автоматическое распознавание номеров при проезде через платные дороги, контроль доступа на парковках и т.д.

Весь текст будет доступен после покупки

отрывок из работы

1 ОБЗОР ЛИТЕРАТУРЫ

1.1 Существующие подходы для распознавания текста на сцене
Распознавание текста на сцене (Scene Text Recognition, STR) - это процесс автоматического распознавания текста на изображениях, которые содержат текст на разных фонах, в различных шрифтах и с разными углами наклона. В последние годы архитектура Transformer получила широкое применение в STR и показала высокие результаты в точности распознавания текста. Для написания дипломной работы на тему распознавания текста на сцене с использованием архитектуры Transformer можно обратиться к следующим источникам литературы:
1. "Scene text recognition with CNN Classifier and WFST based word labeling" авторов X. Liu, T. Kawanishi. Эта статья описывает метод распознавания текста на сцене, основанный на сверточных нейронных сетях и WFST. В этой статье для решения задачи распознавания текста на сцене используют CNN, который сначала определяет и распознает символы. Затем для постобработки используют эффективную и гибкую модель маркировки слов на основе весового конечного преобразователя (WFST) для включения в лексикон или языковую модель высокого порядка. В экспериментах данный подход показывает, что предложенный метод может правильно и надежно распознавать текст на изображениях сцены, а результат для общедоступного набора данных ICDAR 2003 демонстрирует точность равную 98.6%.
2. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition" авторов B. Shi и C. Bai. Эта статья представляет метод на основе сверточной сети и LSTM. Сверточная сеть извлекает признаки из изображения и передает карту признаков в качестве входных данных, а LSTM используется для преобразования текста из изображения. В статье авторы используют этот подход на датасете ICDAR 2003 и получают точность равную 89.4%.
3. "SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition" авторов D.Zhong и Y. Lu. Эта статья описывает метод на основе архитектуры Semantic GAN и механизма Balanced Attention для распознавания текста на сцене, генеративно-состязательная сеть (GAN) сначала генерирует простой семантический признак. В отличие от обычных методов преобразования изображения, которые выполняются на уровне изображения, семантическая GAN выполняет генерацию и различение на семантическом уровне с помощью модуля семантического генератора (SGM) и модуля семантического дискриминатора (SDM). Модуль сбалансированного внимания предназначен для решения проблемы рассеяния внимания. Модуль сбалансированного внимания сначала изучает параметр балансировки на основе вектора визуального представления и семантического вектора представления, а затем выполняет операцию балансировки для получения сбалансированного вектора представления. Данный подход был протестирован на датасете ICDAR2013 и была достигнута точность 95.1%.

Весь текст будет доступен после покупки

Список литературы

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need https://arxiv.org/abs/1706.03762
[2] Ivan Khokhlov, Lev Kransnov, Prof. Maxim V. Fedorov, Dr. Sergey Sosnin. Image2SMILES: Transformer-Based Molecular Optical Recognition Engine.
https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069
[3] X. Liu, T. Kawanishi. Scene text recognition with CNN Classifier and WFST based word labeling. https://www.researchgate.net/publication/316450192
[4] Трансформер в картинках. https://habr.com/ru/articles/486358
[5] D. Zhong, Y. Lu. SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition. https://arxiv.org/abs/2207.10256
[6] X.Bai, C. Yao. Scene Text Recognition with Transformer. https://arxiv.org/pdf/2003.08077v3.pdf
[7] R. Atienza. Vision Transformer for Fast and Efficient Scene Text Recognition.
https://www.researchgate.net/publication/351685092_Vision_Transformer_for_Fast_and_Efficient_Scene_Text_Recognition
[8] С. Энтони, А. Лука, В. Томас. Pytorch. Освещая глубокое обучение. СПб-Питер. 2022 г.
[9] T. H, W. Huang, Y. Qiao, J. Yao. Accurate text localization in natural image with cascaded convolutional text network. https://arxiv.org/pdf/1603.09423.pdf
[10] F. Shancheng, X. Hongtao. Attention and Language Ensemble for Scene Text Recognition with Convolutional Sequence Modeling. https://www.researchgate.net/publication/328370184

Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных