Личный кабинет

Дипломная работаИнформационные технологии

Готовая работа №114106 от пользователя Успенская Ирина

Распознавание текстовых данных на изображениях паспортов электроцентробежных насосов с использованием компьютерного зрения.

Name: Распознавание текстовых данных на изображениях паспортов электроцентробежных насосов с использованием компьютерного зрения.
Price: 1875.00 RUB

1 875 ₽

Файл с работой можно будет скачать в личном кабинете после покупки

Страниц: 75

Год написания: 2024

Успенская Ирина

Сообщить о нарушении авторских прав

Гарантия безопасной покупки

Уникальность текста выше 50%

Возможность снять с продажи

Не подходит эта работа?

Укажите тему работы или свой e-mail, мы отправим подборку похожих работ

содержание

ВВЕДЕНИЕ 7
ГЛАВА 1. OCR - МЕТОДЫ, ТЕХНОЛОГИИ И АЛГОРИТМЫ. 10
1.1 Технологии оптического распознавания символов (OCR). 10
1.2 Применение OCR для распознавания технической документации 15
1.3 Особенности распознавания русского текста 22
ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ 26
2.1 Описание проблемы 26
2.2 Особенности и ограничения изображения паспортов электроцентробежных насосов 33
ГЛАВА 3. РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДИКИ РАСПОЗНАВАНИЯ ТЕКСТА. 39
3.1 Выбор и обоснование используемых технологий. 39
3.2 Получение и предварительная обработка изображений. 41
3.3 Настройка параметров OCR для русского языка 46
3.4 Обработка таблицы 49
3.5 Парсинг и отчистка полученных данных 53
ЗАКЛЮЧЕНИЕ 57
СПИСОК ЛИТЕРАТУРЫ 60
ПРИЛОЖЕНИЯ 64
Приложение 1 64
Приложение 2. Изображение с пятном 64
Приложение 3. Грязное и мятое изображение 65
Приложение 4. Присутствует полоса на грязном и «мыльном» изображении 66
Приложение 5. 67
Приложение 6 67
Приложение 7 67
Приложение 8 67
Приложение 9 67
Приложение 10 67
Приложение 11 67
Приложение 12 67
Приложение 13 68
Приложение 14 68
Приложение 15 68
Приложение 16 68
Приложение 17 68
Приложение 18 69
Приложение 19 69
Приложение 20 69
Приложение 21 70
Приложение 22 70
Приложение 23 70
Приложение 24 71
Приложение 25 71
Приложение 26 71

Весь текст будет доступен после покупки

Показать еще текст

ВВЕДЕНИЕ

Современные технологии автоматизации играют ключевую роль в развитии различных отраслей промышленности, включая нефтегазовую. Одной из основных задач в области автоматизации является обработка технической документации в том числе, и паспортов электроцентробежных насосов (ЭЦН). Электроцентробежные насосы широко используются для добычи нефти и газа, а их паспорта содержат основную и критически важную информацию, которая необходима для их эксплуатации и обслуживания. Автоматическое распознавание текста и символов на изображениях, таких паспортов дает возможность значительно упростить и ускорить процесс обработки данных. Это в свою очередь помогает снижать количество ошибок, связанных с человеческим фактором, и в итоге повышать общую производительность. Но данная задача связана с рядом сложностей. Во-первых, это специфика русского языка, который включает использование кириллического алфавита, и соответственно, специфических символов и аббревиатур. Во-вторых, изображения паспортов часто бывают не самого высокого качества. Они содержат помехи, искажения и загрязнения, что в свою очередь усложняет процесс распознавания. В-третьих, структура паспорта ЭЦН не статическая, а это требует адаптивных алгоритмов для успешного распознавания информации.

Весь текст будет доступен после покупки

Показать еще текст

отрывок из работы

ГЛАВА 1. OCR - МЕТОДЫ, ТЕХНОЛОГИИ И АЛГОРИТМЫ.

1.1 Технологии оптического распознавания символов (OCR).

Оптическое распознавание символов (OCR) является технологией, которая преобразует визуальное представление текста на изображении в машинно-читаемый текст. Эта технология имеет широкое применение: начиная от автоматизации обработки бумажных документов и заканчивая улучшением доступности информации для пользователей с ограниченными возможностями. История развития OCR начинается с середины 20-го века. Тогда были разработаны первые системы для автоматического распознавания печатного текста. Эти системы изначально использовались в банках для обработки чеков и в почтовых службах для автоматической сортировки писем. Первые OCR-системы были довольно примитивными и основывались на простых шаблонных методах, они могли распознавать только ограниченный набор символов и часто выдавали ошибки. С развитием вычислительной техники и алгоритмов машинного обучения OCR технологии значительно улучшились. Важную роль в этом процессе сыграли разработки в области искусственного интеллекта, большое влияние оказало развитие в области нейронных сетей. Современные OCR-системы могут распознавать текст на различных языках, обрабатывать сложные документы с графическими элементами и таблицами, а также работать с рукописным текстом. Они включают в себя несколько ключевых этапов, каждый из которых имеет свои особенности и требует применения специфических методов и алгоритмов.
Предварительная обработка изображений является первым этапом в процессе OCR. Цель этого этапа — улучшить качество, а следовательно и читаемость изображения для того, чтобы повысить точность последующего распознавания текста. В рамках предварительной обработки выполняется ряд следующих задачи:
Фильтрация шума: Удаление различных артефактов и шумов, которые могут присутствовать на изображении. Для этого используются медианные фильтры, гауссовское размытие и другие методы фильтрации.

Весь текст будет доступен после покупки

Показать еще текст

Список литературы

1. Смит, Р. (2007). Обзор движка Tesseract OCR. Материалы девятой международной конференции по распознаванию документов (ICDAR 2007), Т. 2, 629-633.
2. Смит, Р. (2009). Гибридный анализ макета страницы через обнаружение табуляции. Международная конференция по распознаванию документов (ICDAR), 2009.
3. Шарма, Г., Тивари, М. (2017). Локализация текста, извлечение и распознавание из изображений документов с использованием методов обработки изображений: Обзор. Журнал визуальной коммуникации и представления изображений, Т. 40, 76-102.
4. Гудфеллоу, И., Бенджио, Й., Курвилль, А. (2016). Глубокое обучение. MIT Press. http://www.deeplearningbook.org
5. ЛеКун, Й., Бенджио, Й., Хинтон, Г. (2015). Глубокое обучение. Nature, 521(7553), 436-444.
6. Крижевски, А., Сутскевер, И., Хинтон, Г. (2012). Классификация ImageNet с помощью глубоких сверточных нейронных сетей. Advances in Neural Information Processing Systems, 1097-1105.
7. Ханнун, А. (2017). Моделирование последовательностей с использованием CTC. Distill. https://distill.pub/2017/ctc
8. Документация OpenCV. Библиотека компьютерного зрения с открытым исходным кодом. https://opencv.org
9. Саркар, Д. (2016). Распознавание текста с использованием глубокого обучения: Обзор методов. Towards Data Science. https://towardsdatascience.com/text-recognition-using-deep-learning-an-overview-of-techniques-1f92e7b4961

Весь текст будет доступен после покупки

Показать еще текст

Купить и скачать работу

Распознавание текстовых данных на изображениях паспортов электроцентробежных насосов с использованием компьютерного зрения.

Почему студенты выбирают наш сервис?

Работаем круглосуточно

24 часа в сутки

7 дней в неделю

Гарантия

Возврат средств в случае проблем с купленной готовой работой

Мы лидеры

LeWork является лидером по количеству опубликованных материалов для студентов

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Как оплатить заказ?

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем!

Есть ли услуга безопасной покупки, и какой срок гарантии?

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней.

Что означает возможность снять с продажи готовую работу ?

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Как вернуть средства за некачественную работу?

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Как связаться со службой поддержки, если возникли вопросы?

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net