1 Анализ ситуации и проблематики темы оценки надежности
1.1 Характеристика предметной области
Задача анализа временных рядов изучается уже много лет, и за это время было разработано множество успешных подходов, считающихся классическими. Среди них - статистические алгоритмы, такие как ARMA, ARIMA, GARCH, модель Хольта-Винтерса, модели линейной регрессии, а также нейронные сети разнообразных архитектур (RNN, LSTM и другие).
Эти методы хорошо описаны, тщательно исследованы и нашли применение в промышленности. Но главным их недостатком является то, что модели быстро устаревают. Для любого алгоритма машинного обучения с обучением под контролем необходимо настраивать параметры модели на заранее подготовленной обучающей выборке, проверять точность предсказаний на тестовой выборке и интерполировать результаты на более широкую выборку реальных данных. Кроме того, временные ряды часто бывают нестационарными, их статистические характеристики могут меняться со временем под воздействием различных внешних факторов.
Чтобы параметры модели оставались актуальными на протяжении всего срока эксплуатации, используется систематическое переобучение модели через определенные временные интервалы. К сожалению, это неэффективно, так как требует постоянного использования ресурсов не для работы системы, а для ее реконфигурации, что усложняет техническую поддержку.
Тем не менее, существует категория моделей, которые не требуют полного переобучения, а могут быть "дообучены" (т.е. модифицированы существующие параметры модели) в реальном времени. Эти алгоритмы обсуждаются в литературе по онлайн-обучению.
Важно, что для таких моделей критически важна высокая скорость обработки входящих данных, чтобы предотвратить их накопление. Для обработки данных с высокой интенсивностью рекомендуется использовать фреймворки, поддерживающие распределенные вычисления на больших объемах данных.
1.2 Обзор существующих вариантов решения проблем, связанных с задачами прогнозирования
Регрессионные модели. Регрессионный анализ применяется для изучения взаимосвязей между двумя и более переменными и часто используется в прогнозировании. Регрессионные модели состоят из следующих элементов:
? неизвестные параметры, обозначенные как ??, представленные в виде скаляра или вектора,
? независимые переменные – X,
? зависимая переменная – ??
?? ? ??(??, ??)
Должны соблюдаться следующие условия:
? ошибка представляет собой случайную величину,
? независимые переменные (предикторы) линейно независимы, т. е. невозможно выразить какой-либо предиктор в виде линейной комбинации других,
? ошибки некоррелированы.
? дисперсия ошибки постоянна в наблюдениях (гомоскедастичность).:
Модель линейной регрессии исходит из предположения, что связь между зависимой и независимой переменными линейна. Эта связь моделируется через случайные возмущения или ошибки – ненаблюдаемые случайные величины.
Имеются следующие разновидности линейной регрессии [5-8]: простая и множественная линейная регрессия:
? простая линейная регрессия: применяется, когда имеется один предиктор x и одна откликающаяся переменная y.
? множественная линейная регрессия: предназначена для случаев с несколькими предикторами, которые могут быть скалярными или векторными (обозначаемыми как X).
В практических ситуациях часто используется множественная линейная регрессия, где в модели задействовано несколько предикторов. Разработаны также модели, учитывающие гетероскедастичность, то есть различия в отклонениях ошибок между независимыми переменными. Например, метод взвешенных наименьших квадратов применяется для оценки моделей линейной регрессии, когда ошибки у экзогенных переменных различаются.
Весь текст будет доступен после покупки