Личный кабинетuser
orange img orange img orange img orange img orange img
ДиссертацияРазное
Готовая работа №110586 от пользователя Куклачев Дмитрий
book

ПОСТРОЕНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ПРЕДИКТИВНОГО АНАЛИЗА ДАННЫХ ПО НЕДВИЖИМОСТИ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ

1 640 ₽
Файл с работой можно будет скачать в личном кабинете после покупки
like
Гарантия безопасной покупки
help

Сразу после покупки работы вы получите ссылку на скачивание файла.

Срок скачивания не ограничен по времени. Если работа не соответствует описанию у вас будет возможность отправить жалобу.

Гарантийный период 7 дней.

like
Уникальность текста выше 50%
help

Все загруженные работы имеют уникальность не менее 50% в общедоступной системе Антиплагиат.ру

file
Возможность снять с продажи
help

У покупателя есть возможность доплатить за снятие работы с продажи после покупки.

Например, если необходимо скрыть страницу с работой на сайте от третьих лиц на определенный срок.

Тариф можно выбрать на странице готовой работы после покупки.

Не подходит эта работа?
Укажите тему работы или свой e-mail, мы отправим подборку похожих работ
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных

содержание

ВВЕДЕНИЕ 8
ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 10
1.1. Введение в анализ рынка недвижимости 10
1.2. Системы прогнозной аналитики 13
1.3. Этапы прогностической аналитики 14
1.4. Существующие подходы и решения 15
1.4.1. Apache Hadoop 15
1.4.2. Power BI 17
1.4.3. Apache Spark 18
1.4.4. Геоинформационные системы и системы онлайн-анализа 20
1.4.5. Заключительные сравнения 21
1.5. Выводы 22
ГЛАВА 2. ПРОЕКТИРОВАНИЕ РЕШЕНИЯ 23
2.1. Анализ требований и общий алгоритм 23
2.2. Верхнеуровневая архитектура 25
2.3. Описание работы системы с использованием подхода автоматизации 27
2.3.1. Извлечение данных 27
2.3.2. Модуль Мониторинга 29
2.3.3. Хранилище данных 30
2.3.4. Модуль бизнес-аналитик 31
2.3.5. Модуль прогностического анализа 32
2.4. Выводы 36
ГЛАВА 3. РЕАЛИЗАЦИЯ 37
3.1. Структура проекта и используемые инструменты 37
3.1.1. Структура проекта 37
3.1.2. Используемые инструменты 38
3.2. Реализация модуля извлечения данных 39
3.2.1. Кластер kafka и протокол kraft 40
3.2.2. Веб-скребок и производитель 42
3.2.3. Очиститель потребительских данных 45
3.3. Создание хранилища данных 46
3.4. Реализация модуля бизнес-аналитики 49
3.5. Реализации модуля прогностического анализа 50
3.6. Внедрение модуля мониторинга 52
3.7. Характеристики и реализованного решения 53
3.8. Выводы 54
ГЛАВА 4. РЕЗУЛЬТАТЫ ПОСТРОЕНИЯ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АНАЛИЗА ПРОЦЕССОВ, СВЯЗАННЫХ С МАШИННЫМ ОБУЧЕНИЕМ 54
4.1. Общие результаты 55
4.2. Результаты модуля извлечения и очистки данных 56
4.3. Результаты работы модуля хранилища данных 58
4.4. Результаты по модулю BI и прогностического модуля анализа 59
4.5. Результаты модуль мониторинга 60
4.6. Выводы 61
ЗАКЛЮЧЕНИЕ 62
СПИСОК ЛИТЕРАТУРЫ 64



Весь текст будет доступен после покупки

ВВЕДЕНИЕ

Потребности компаний в прогнозной аналитике и принятии решений в различных областях и отраслях в последние годы возросли в связи с усилением конкуренции между компаниями и изменением поведения потребителей. По этой причине компании начали вкладывать больше средств в анализ данных, прогнозирование поведения своих потребителей и, кроме того, в принятие решений при поддержке искусственного интеллекта [19].
Индустрия недвижимости - одна из отраслей, в которой наблюдается наибольшее изменение поведения потребителей, и по этой причине требуется быстрый прогнозный анализ и своевременное принятие решений. Как компа-нии, занимающиеся недвижимостью [36] , так и общественность в целом хотят инвестировать разумно, но из-за непомерного объема данных, характеристик и переменных, связанных с недвижимостью, способность выполнять эти задачи стали проблемой.
Среди наиболее важных задач-масштабируемость системы, возможность обработки больших объемов данных, адаптивность и мониторинг. Существуют различные решения для анализа данных, в том числе: Apache Hadoop, Power BI, Google BigQuery и многие другие, но у них есть некоторые недостатки в отношении автоматизации процессов, о которых мы поговорим в следующих главах.
Внедрение инструмента, который восполняет эти пробелы, сократит ра-бочую нагрузку и время, затрачиваемое на работу [18], и обеспечит большую надежность за счет внедрения более сложной прогнозной аналитики для пред-приятий.

Весь текст будет доступен после покупки

отрывок из работы

ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
1.1. Введение в анализ рынка недвижимости
Индустрия недвижимости в последние годы постоянно развивалась, пе-режила серьезные кризисы, такие как периоды экстремального подъема. Точно так же, как произошли изменения в бизнес-модели, маркетинге и других областях, изменился и подход к принятию инвестиционных решений в сфере недвижимости. Поведение потребителей резко изменилось за последние несколько лет, экономика сильно изменилась после пандемии 2020 года и оставила в ней определенные последствия. По этой причине отрасль более чем когда-либо нуждается в принятии решений, основанных на данных и их тщательном изучении [49].
Эти данные, которые сегодня генерируются в Интернете с помощью страниц объявлений о покупке и аренде недвижимости, значительно возросли. Только в последние годы на сайте размещения недвижимости cian.ru он значительно вырос в городах Москве и Санкт-Петербурге (рис .1).


Рис. 1. Число сделок с физическими лицами на первичном рынке

Кроме того, что касается цен, за последние несколько лет произошел значительный рост, как мы можем видеть ниже (рис. 2).

Весь текст будет доступен после покупки

Список литературы

1. Ali A., Mashwani W. A Supervised Machine Learning Algorithms: Applications, Challenges, and Recommendations // Proceedings of the Pakistan Academy of Sciences: A. Physical and Computational Sciences. 2023. (60).
2. Arasteh B. [и др.]. DATA REPLICATION IN DISTRIBUTED SYSTEMS USING OLYMPIAD OPTIMIZATION ALGORITHM // Facta Universitatis, Series: Mechanical Engineering. 2023. (21). C. 501.
3. Aytas Y. Stream Big Data Processing 2021.C. 89–120.
4. Bui G., Vinh P. A Framework for Similarity Search in Streaming Time Series based on Spark Streaming // Mobile Networks and Applications. 2022. (27).
5. Calderon G. [и др.]. Monitoring Framework for the Performance Evaluation of an IoT Platform with Elasticsearch and Apache Kafka // Information Systems Frontiers. 2023. C. 1–17.
6. Chavva S., Sangam R., Rao B. A Survey on Business Intelligence Tools for Marketing, Financial, and Transportation Services: Proceedings of the Second International Conference on SCI 2018, Volume 2 2019.C. 495–504.
7. Coaboy E., Jumbo J. Plataformas de visualizacion de datos tolerantes a fallos por medio de MongoDB. // REVISTA CIENTIFICA ECOCIENCIA. 2021. (8). C. 45–70.
8. Dinesh L., Devi G. An efficient hybrid optimization of ETL process in data warehouse of cloud architecture // Journal of Cloud Computing. 2024. (13).
9. Frampton M. Streaming под ред. M. Frampton, Berkeley, CA: Apress, 2018.C. 219–257.
10. Galkin T., Grigorieva M. Parallel Coordinates Visualization in the ELK Stack // Proceedings of the 30th International Conference on Computer Graphics and Machine Vision (GraphiCon 2020). Part 2. 2020. C. paper10-1.
11. Gandhi M. AN ANALYTICAL REVIEW OF BIG DATA AND HADOOP INTEGRATION // International Education and Research Journal. 2024. (10).
12. Huang C.-K., Pierre G. AdapPF: Self-Adaptive Scrape Interval for Monitoring in Geo-Distributed Cluster Federations / C.-K. Huang, G. Pierre, 2023.
13. Jagadish H. V. [и др.]. Big data and its technical challenges // Communications of the ACM. 2014. № 7 (57). C. 86–94.
14. Ji X. [и др.]. Query Execution Optimization in Spark SQL // Scientific Programming. 2020. (2020). C. 1–12.
15. Karunanithi A. [и др.]. Data Synchronization Between MongoDB and Elasticsearch Using Monstache in Real-Time Data / A. Karunanithi, J. Sekar, J. G, S. N M, P. P, [и др.]., 2023. 1 c.
16. Kul S., Kumcu S., Sayar A. Docker Container-Based Framework of Apache Kafka Node Ecosystem: Vehicle Tracking System by License Plate Recognition on Surveillance Camera Feeds // International Journal of Intelligent Transportation Systems Research. 2024.
17. Lazidis A., Tsakos K., Petrakis E. Publish-Subscribe approaches for the IoT and the cloud: Functional and performance evaluation of open-source systems // Internet of Things. 2022. (19). C. 100538.
18. Li Y. Analysis of Real Estate Predictions Based on Different Models // Highlights in Science, Engineering and Technology. 2023. (76). C. 410–414.
19. Liang C. Predicting New York Housing Prices: A Machine Learning Approach Incorporating School, Living facilities and Real Estate Market Factors // Highlights in Science, Engineering and Technology. 2024. (85). C. 710–715.
20. M J E., Jose J. An Analysis on Hadoop MapReduce Performance: a Survey // Journal of Advanced Research in Dynamical and Control Systems. 2018. (10). C. 202–210.
21. Mohalder R. N., Hossain Md. A., Hossain N. CLASSIFYING THE SUPERVISED MACHINE LEARNING AND COMPARING THE PERFORMANCES OF THE ALGORITHMS // International Journal of Advanced Research. 2024. (12). C. 422–438.
22. Mukherjee R., Kar P. A Comparative Review of Data Warehousing ETL Tools with New Trends and Industry Insight / R. Mukherjee, P. Kar, 2017. 943 c.
23. Nacional U. [и др.]. Cloud technology as a support for the ETL process and its influence on decision making // African Journal of Aquatic Science. 2021. (12). C. 4637–4646.
24. Naffar E., Awad L. APACHE SPARK AND HADOOP: A DETAILED COMPARISON OF THE TWO PROCESSING PARADIGMS 2024.
25. Nayak A., Goyal K. Traffic modeling and accidental data analysis using GIS: A Review // IOP Conference Series: Earth and Environmental Science. 2024. (1327). C. 012028.
26. Ninan A. Performance Tuning and Optimization of Apache Spark Applications // International Journal of Computer Trends and Technology. 2023. (71). C. 10–14.
27. Oluwunmi A. [и др.]. Big Data And Real Estate: A Review Of Literature // Journal of Physics: Conference Series. 2019. (1378). C. 032015.
28. Owen J. Fault-Tolerant Data Ingestion and Processing: Cassandra and Kafka Integration for Scalable Systems 2024.
29. Ozturk M. MFRLMO: Model-free reinforcement learning for multi-objective optimization of apache spark // ICST Transactions on Scalable Information Systems. 2024. (11).
30. Quan H. [и др.]. Big Data and AI-Driven Product Design: A Survey // Applied Sciences. 2023. (13). C. 9433.
31. Samad A. Real-Time Stream Processing in Cassandra-Kafka Ecosystem: Performance and Scalability Analysis 2024.
32. Sewal P., Rawat H. Performance optimization of Spark MLlib workloads using cost efficient RICG model on exponential projective sampling // Cluster Computing. 2024. C. 1–20.
33. Shaker A. A Survey of Scaling Distributed System Via Machine Learning and An Insight on Hadoop and Spark // IOP Conference Series: Materials Science and Engineering. 2020. (928). C. 032008.
34. Shen Y., Yu X. Docker container hardening method based on trusted computing // Journal of Physics: Conference Series. 2020. (1619). C. 012014.
35. Srihith I. V. [и др.]. From Novice to Expert: A Journey into Training Machine Learning Models 2023. (5). C. 1–7.
36. Tekin M., Ucal Sar? I. Real Estate Market Price Prediction Model of Istanbul // Real Estate Management and Valuation. 2022. (30). C. 1–16.
37. Thangavel K. [и др.]. Monitoring and Detection of Volcanic Activity in Near Real-Time Using Intelligent Distributed Satellite Systems / K. Thangavel, D. Spiller, S. Amici, R. Sabatini, 2023.
38. Vozniuk A., Rodriguez-Triana M., Gillet D. Interactive learning analytics dashboards with ELK (Elasticsearch Logstash Kibana) / A. Vozniuk, M. Rodriguez-Triana, D. Gillet, 2016.
39. Wan P., Wang L. Research and implementation of search engine based on Lucene Atlantis Press, 2016.C. 212–218.
40. Wu H., Zhihao S., Wolter K. Performance Prediction for the Apache Kafka Messaging System / H. Wu, S. Zhihao, K. Wolter, 2019. 154 c.
41. Yudha Erian Saputra Moch. [и др.]. Real-Time Server Monitoring and Notification System with Prometheus, Grafana, and Telegram Integration 2024.C. 1808–1813.
42. Zhang J. M. [и др.]. Machine Learning Testing: Survey, Landscapes and Horizons // IEEE Transactions on Software Engineering. 2022. № 1 (48). C. 1–36.
43. Zulkarnain N., Anshari M. Big data: Concept, applications, & challenges Bandung: IEEE, 2016.C. 307–310.
44. Россияне назвали главные критерии выбора новостроек // РБК Недвижимость [Электронный ресурс]. URL: https://realty.rbc.ru/news/6389b3b69a794751fef1941d (дата обращения: 05.06.2024).
45. Web Scraping // Techopedia [Электронный ресурс]. URL: https://www.techopedia.com/definition/5212/web-scraping (дата обращения: 09.06.2024).
46. Comprehensive Guide to ML Model Testing and Evaluation // TestingXperts [Электронный ресурс]. URL: https://www.testingxperts.com/blog/ml-testing (дата обращения: 09.06.2024).
47. Ипотека побила рекорд в 2023 году // Ведомости [Электронный ресурс]. URL: https://www.vedomosti.ru/finance/articles/2023/12/26/1012932-ipoteka-pobila-rekord-v-2023-g (дата обращения: 05.06.2024).
48. Обзор рынка недвижимости Новой Москвы и Подмосковья по итогам мая 2024 года // IRN.RU - Аналитический портал о недвижимости [Электронный ресурс]. URL: https://www.irn.ru/index/novaya-moskva-i-podmoskovie/ (дата обращения: 05.06.2024).
49. Аналитика рынка недвижимости по всей России для бизнеса // CIAN [Электронный ресурс]. URL: https://www.cian.ru/analiz-rynka-nedvizhimosti-b2b/ (дата обращения: 05.06.2024).
50. What is predictive analytics and how does it work? // Google Cloud [Электронный ресурс]. URL: https://cloud.google.com/learn/what-is-predictive-analytics (дата обращения: 06.06.2024).
51. What is a Container? | Docker [Электронный ресурс]. URL: https://www.docker.com/resources/what-container/ (дата обращения: 08.06.2024).
52. Apache Lucene - Scoring [Электронный ресурс]. URL: https://lucene.apache.org/core/2_9_4/scoring.html (дата обращения: 09.06.2024).
53. What is Model Training | Oden Technologies [Электронный ресурс]. URL: https://oden.io/glossary/model-training/ (дата обращения: 09.06.2024).
54. KRaft Overview | Confluent Documentation [Электронный ресурс]. URL: https://docs.confluent.io/platform/current/kafka-metadata/kraft.html (дата обращения: 10.06.2024).
55. kafka-python — kafka-python 2.0.2-dev documentation [Электронный ресурс]. URL: https://kafka-python.readthedocs.io/en/master/ (дата обращения: 10.06.2024).
56. Monstache [Электронный ресурс]. URL: https://rwynn.github.io/monstache-site/ (дата обращения: 10.06.2024).
57. pyspark.sql.SparkSession — PySpark 3.1.1 documentation [Электронный ресурс]. URL: https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.SparkSession.html (дата обращения: 10.06.2024).
58. VectorAssembler — PySpark 3.1.3 documentation [Электронный ресурс]. URL: https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.ml.feature.VectorAssembler.html (дата обращения: 10.06.2024).
59. MLlib (DataFrame-based) — PySpark 3.1.1 documentation [Электронный ресурс]. URL: https://spark.apache.org/docs/3.1.1/api/python/reference/pyspark.ml.html (дата обращения: 10.06.2024).
60. Root Mean Square Error (RMSE) // C3 AI [Электронный ресурс]. URL: https://c3.ai/glossary/data-science/root-mean-square-error-rmse/ (дата обращения: 10.06.2024).


Весь текст будет доступен после покупки

Почему студенты выбирают наш сервис?

Купить готовую работу сейчас
service icon
Работаем круглосуточно
24 часа в сутки
7 дней в неделю
service icon
Гарантия
Возврат средств в случае проблем с купленной готовой работой
service icon
Мы лидеры
LeWork является лидером по количеству опубликованных материалов для студентов
Купить готовую работу сейчас

не подошла эта работа?

В нашей базе 78761 курсовых работ – поможем найти подходящую

Ответы на часто задаваемые вопросы

Чтобы оплатить заказ на сайте, необходимо сначала пополнить баланс на этой странице - https://lework.net/addbalance

На странице пополнения баланса у вас будет возможность выбрать способ оплаты - банковская карта, электронный кошелек или другой способ.

После пополнения баланса на сайте, необходимо перейти на страницу заказа и завершить покупку, нажав соответствующую кнопку.

Если у вас возникли проблемы при пополнении баланса на сайте или остались вопросы по оплате заказа, напишите нам на support@lework.net. Мы обязательно вам поможем! 

Да, покупка готовой работы на сайте происходит через "безопасную сделку". Покупатель и Продавец финансово защищены от недобросовестных пользователей. Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. 

У покупателя есть возможность снять готовую работу с продажи на сайте. Например, если необходимо скрыть страницу с работой от третьих лиц на определенный срок. Тариф можно выбрать на странице готовой работы после покупки.

Гарантийный срок составляет 7 дней со дня покупки готовой работы. В течение этого времени покупатель имеет право подать жалобу на странице готовой работы, если купленная работа не соответствует описанию на сайте. Рассмотрение жалобы занимает от 3 до 5 рабочих дней. Если администрация сайта принимает решение о возврате денежных средств, то покупатель получает уведомление в личном кабинете и на электронную почту о возврате. Средства можно потратить на покупку другой готовой работы или вывести с сайта на банковскую карту. Вывод средств можно оформить в личном кабинете, заполнив соответствущую форму.

Мы с радостью ответим на ваши вопросы по электронной почте support@lework.net

surpize-icon

Работы с похожей тематикой

stars-icon
arrowarrow

Не удалось найти материал или возникли вопросы?

Свяжитесь с нами, мы постараемся вам помочь!
Неккоректно введен e-mail
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных