1. ОБЩИЕ АСПЕКТЫ МЕТОДОВ ОБНАРУЖЕНИЯ СЕТЕВЫХ АНОМАЛИЙ
Стандартные методы анализа сетевого графика, основанные на использовании сигнатур атак, не в состоянии выявить новый тип атаки, или же модификацию старого. Именно поэтому, множество исследований изучают различные методы обнаружения атак путем обнаружения аномалий в сетевом трафике, в том числе и методами машинного обучения. Отметим также, что по сравнению с использованием сигнатур атак, у машинного обучения есть несколько недостатков. К ним относятся увеличение количества ложных тревог, особенно на новых данных, и, что очень важно, увеличение расходов на вычислительную мощность и другие проблемы.
Большинство исследований в этой области касаются использования классических алгоритмов классификации, таких как линейные и метрические классификаторы, очень популярные в наше время нейросети, деревья решений и байесовы сети, для обнаружения сетевых атак. В этом случае используют традиционные методы машинного обучения, в которых сетевой трафик, зачастую, трафик отдельно взятого соединения, описывается вектором признаков, таких как сетевой протокол соединения, длительность соединения, задержка между пакетами и IP-адреса участников. Далее, ставится метка - легальный ли трафик в рамках этой сети, или же проводилась атака, формируется множество помеченных векторов(обучающая выборка), и на их основе уже обучаются алгоритмы. Но, так как метод традиционный, а новые виды атак возникают постоянно, возникают две проблемы.
Первая проблема – алгоритмы классификации строго следуют выработанному алгоритму, и, соответственно, не смогут обнаружить новую атаку. Вполне может возникнуть ситуация, в которой алгоритмы, обучившиеся выявлять атаки отказа в обслуживании, и некоторые другие известные виды атак, классифицируют новую атаку как легальный трафик, ведь они не обучаются по ходу работы.
Вторая проблема заключается в том, что на практике в различных компьютерных сетях нормальный трафик – различный. Она исходит от того, что в разных сетях может быть разная архитектура, разные используемые аппаратные средства и используемые протоколы и приложения. Исходя из этого, для обучения алгоритма в некоторой сети, не всегда получится взять некую выборку трафика из другой сети, и обучить алгоритмы на ней – необходимо собрать нормальный трафик, и трафик, являющийся атакой, или же, аномальный. Для получения аномального трафика придётся или атаковать свою сеть самостоятельно, или же с помощью некоторых программных алгоритмов генерировать наборы сетевого трафика, являющий собой аномальный.
Для решений этих проблем используются методы одноклассовой классификации. Эти методы очень хорошо справляются с непомеченным данными, так как их суть в том, что обучаются они на одном-единственном классе, и обученный алгоритм решает, принадлежит ли новый объект к этому классу или нет. Эта задача более трудоемкая, нежели многоклассовая классификация, поэтому алгоритмов для решения этой задачи, гораздо меньше и они работают ощутимо дольше. Мы же воспользуемся решением второй проблемы – будем использовать помеченные данные NSL-KDD и, следовательно, многоклассовые методы.
Весь текст будет доступен после покупки