Личный кабинетuser
orange img orange img orange img orange img orange img
Дипломная работаИнформационные технологии
Готовая работа №118183 от пользователя Успенская Ирина
book

Распознавание текстовых данных на изображениях паспортов электроцентробежных насосов с использованием компьютерного зрения.

1 875 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

ВВЕДЕНИЕ 7
ГЛАВА 1. OCR - МЕТОДЫ, ТЕХНОЛОГИИ И АЛГОРИТМЫ. 10
1.1 Технологии оптического распознавания символов (OCR). 10
1.2 Применение OCR для распознавания технической документации 15
1.3 Особенности распознавания русского текста 22
ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ 26
2.1 Описание проблемы 26
2.2 Особенности и ограничения изображения паспортов электроцентробежных насосов 33
ГЛАВА 3. РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДИКИ РАСПОЗНАВАНИЯ ТЕКСТА. 39
3.1 Выбор и обоснование используемых технологий. 39
3.2 Получение и предварительная обработка изображений. 41
3.3 Настройка параметров OCR для русского языка 46
3.4 Обработка таблицы 49
3.5 Парсинг и отчистка полученных данных 53
ЗАКЛЮЧЕНИЕ 57
СПИСОК ЛИТЕРАТУРЫ 60
ПРИЛОЖЕНИЯ 64
Приложение 1 64
Приложение 2. Изображение с пятном 64
Приложение 3. Грязное и мятое изображение 65
Приложение 4. Присутствует полоса на грязном и «мыльном» изображении 66
Приложение 5. 67
Приложение 6 67
Приложение 7 67
Приложение 8 67
Приложение 9 67
Приложение 10 67
Приложение 11 67
Приложение 12 67
Приложение 13 68
Приложение 14 68
Приложение 15 68
Приложение 16 68
Приложение 17 68
Приложение 18 69
Приложение 19 69
Приложение 20 69
Приложение 21 70
Приложение 22 70
Приложение 23 70
Приложение 24 71
Приложение 25 71
Приложение 26 71

Весь текст будет доступен после покупки

ВВЕДЕНИЕ

Современные технологии автоматизации играют ключевую роль в развитии различных отраслей промышленности, включая нефтегазовую. Одной из основных задач в области автоматизации является обработка технической документации в том числе, и паспортов электроцентробежных насосов (ЭЦН). Электроцентробежные насосы широко используются для добычи нефти и газа, а их паспорта содержат основную и критически важную информацию, которая необходима для их эксплуатации и обслуживания. Автоматическое распознавание текста и символов на изображениях, таких паспортов дает возможность значительно упростить и ускорить процесс обработки данных. Это в свою очередь помогает снижать количество ошибок, связанных с человеческим фактором, и в итоге повышать общую производительность. Но данная задача связана с рядом сложностей. Во-первых, это специфика русского языка, который включает использование кириллического алфавита, и соответственно, специфических символов и аббревиатур. Во-вторых, изображения паспортов часто бывают не самого высокого качества. Они содержат помехи, искажения и загрязнения, что в свою очередь усложняет процесс распознавания. В-третьих, структура паспорта ЭЦН не статическая, а это требует адаптивных алгоритмов для успешного распознавания информации.

Весь текст будет доступен после покупки

отрывок из работы

ГЛАВА 1. OCR - МЕТОДЫ, ТЕХНОЛОГИИ И АЛГОРИТМЫ.

1.1 Технологии оптического распознавания символов (OCR).

Оптическое распознавание символов (OCR) является технологией, которая преобразует визуальное представление текста на изображении в машинно-читаемый текст. Эта технология имеет широкое применение: начиная от автоматизации обработки бумажных документов и заканчивая улучшением доступности информации для пользователей с ограниченными возможностями. История развития OCR начинается с середины 20-го века. Тогда были разработаны первые системы для автоматического распознавания печатного текста. Эти системы изначально использовались в банках для обработки чеков и в почтовых службах для автоматической сортировки писем. Первые OCR-системы были довольно примитивными и основывались на простых шаблонных методах, они могли распознавать только ограниченный набор символов и часто выдавали ошибки. С развитием вычислительной техники и алгоритмов машинного обучения OCR технологии значительно улучшились. Важную роль в этом процессе сыграли разработки в области искусственного интеллекта, большое влияние оказало развитие в области нейронных сетей. Современные OCR-системы могут распознавать текст на различных языках, обрабатывать сложные документы с графическими элементами и таблицами, а также работать с рукописным текстом. Они включают в себя несколько ключевых этапов, каждый из которых имеет свои особенности и требует применения специфических методов и алгоритмов.
Предварительная обработка изображений является первым этапом в процессе OCR. Цель этого этапа — улучшить качество, а следовательно и читаемость изображения для того, чтобы повысить точность последующего распознавания текста. В рамках предварительной обработки выполняется ряд следующих задачи:
Фильтрация шума: Удаление различных артефактов и шумов, которые могут присутствовать на изображении. Для этого используются медианные фильтры, гауссовское размытие и другие методы фильтрации.

Весь текст будет доступен после покупки

Список литературы

1. Смит, Р. (2007). Обзор движка Tesseract OCR. Материалы девятой международной конференции по распознаванию документов (ICDAR 2007), Т. 2, 629-633.
2. Смит, Р. (2009). Гибридный анализ макета страницы через обнаружение табуляции. Международная конференция по распознаванию документов (ICDAR), 2009.
3. Шарма, Г., Тивари, М. (2017). Локализация текста, извлечение и распознавание из изображений документов с использованием методов обработки изображений: Обзор. Журнал визуальной коммуникации и представления изображений, Т. 40, 76-102.
4. Гудфеллоу, И., Бенджио, Й., Курвилль, А. (2016). Глубокое обучение. MIT Press. http://www.deeplearningbook.org
5. ЛеКун, Й., Бенджио, Й., Хинтон, Г. (2015). Глубокое обучение. Nature, 521(7553), 436-444.
6. Крижевски, А., Сутскевер, И., Хинтон, Г. (2012). Классификация ImageNet с помощью глубоких сверточных нейронных сетей. Advances in Neural Information Processing Systems, 1097-1105.
7. Ханнун, А. (2017). Моделирование последовательностей с использованием CTC. Distill. https://distill.pub/2017/ctc
8. Документация OpenCV. Библиотека компьютерного зрения с открытым исходным кодом. https://opencv.org
9. Саркар, Д. (2016). Распознавание текста с использованием глубокого обучения: Обзор методов. Towards Data Science. https://towardsdatascience.com/text-recognition-using-deep-learning-an-overview-of-techniques-1f92e7b4961

Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных