|
Кластеризация групп входящих пакетов с помощью нейронных сетей конкурирующего типа
Кластеризация групп входящих пакетов с помощью нейронных сетей конкурирующего типа
66 Содержание Введение 1. Описание способа решения задачи 2. Теоретическая часть 2.1 Что такое Data mining и KDD? 2.2 Описание рассматриваемых хакерских атак 2.2.1 Подмена одного из субъектов TCP-соединения в сети Internet 2.2.2 Нарушение работоспособности хоста в сети Internet при использовании направленного “шторма” ложных TCP-запросов на создание соединения либо при переполнении очереди запросов 2.2.3 Другие виды атак 2.3 Сеть с самоорганизацией на основе конкуренции 2.3.1 Состав сети Кохонена 2.3.2 Меры расстояния между векторами 2.3.3 Способы нормализации входных данных 2.3.4 Алгоритм обучения карты Кохонена 2.3.5 Механизм утомления 2.3.6 Алгоритм нейронного газа 3. Формализация задачи 4. Эксперимент 5. Результаты работы модели Заключение Список используемой литературы Листинг программ Введение Наряду с развитием средств электронной связи происходило развитие средств нарушения работоспособности информационных каналов. В настоящее время усиливается оснащение вычислительной техники механизмами защиты от несанкционированного доступа, вирусов, спама, хакерских атак и т.д. Это так называемые брандмауэры, файрволлы, фильтры пакетов. Операционные системы также усиливают свой боевой арсенал. Несмотря на это ежедневно продолжается нарушаться работа различных компьютеров: от головных серверов до рабочих станций от действия вредоносных программ. В данной работе автор хотел расклассифицировать группы входящих пакетов, поступающих на одну из рабочих станций в ЛВС, методами интеллектуального анализа данных. Впоследствии, зная принадлежность той или иной группы к классу хакерских атак, по заданному количеству поступивших пакетов можно определить грядущую угрозу рабочей станции. 1. Описание способа решения задачи Во-первых, следует выбрать параметры, позволяющие оценить текущее состояние входящего трафика. Из-за того, что по одному пакету нельзя определить начало атаки, то параметры должны быть интегральными по некоторой группе пакетов. Это можно сделать путём оценивания n-подряд идущих пакетов, причём чем больше n, тем более точным должен быть результат классификации. Во вторых, необходимо создать интеллектуальную базу данных для построения интеллектуальной модели системы, это можно сделать путём проведения серии экспериментов, чередуя посылку пакетов, вызванных злонамеренными действиями, и обычных пакетов между компьютерами. Третьим шагом, служит создание интеллектуальной системы оценивания входящих пакетов, причём обучающей базой для построения модели служит база созданная на шаге 2. Наконец, после обучения интеллектуальной системы требуется объяснить результаты моделирования и проверить работу модели в реальных условиях. 2. Теоретическая часть 2.1. Что такое Data mining и KDD? “Большинство исследователей и экспертов накапливают за время своей деятельности большие, а организации - просто гигантские объемы данных. Но единственное что люди могут, а в большинстве случаев и хотят получить от них - это быстрое извлечение требуемой информации. Фактически базы данных выполняют функцию памяти, или сложной записной книжки; доступ пользователя к хранилищу данных обеспечивает только извлечение небольшой части из хранимой информации в ответ на четко задаваемые вопросы. Когда мы имеем огромный поток информации, огромные залежи накопленной информации, встает задача максимально целесообразно использовать эту информацию, чтобы извлечь спрятанное в данных знание с целью оптимизировать управление какими-либо процессами, улучшить деятельность организации, более точно узнать свойства и законы функционирования, присущие очень сложным объектам, таким, скажем, как медицинские организации, биологические системы или организм человека. Можно было бы действовать старым проверенным способом, то есть посадить огромную армию аналитиков, статистиков, которые бы с этими данными разбирались, используя традиционные средства анализа данных. Но, очевидно, что уже сейчас эта задача не может быть решена только силами человека просто в силу гигантского объема данных. Можно сказать, что экстенсивный путь использования интеллекта человека в принципе не позволяет решить эту задачу, и для ее решения требуется качественно иной подход. С другой стороны такое решение просто дорого и экономически неэффективно. Кроме того, не всегда получаемые аналитиками результаты являются объективными, поскольку обычно люди руководствуются, явно или неявно, теми или иными соображениями, некоторыми априорными представлениями об изучаемом предмете, что не может не отразиться на объективности получаемых ими результатов. А можно ли узнать из данных о том, какое решение наиболее предпочтительно для конкретной задачи, как организовать ресурсы бизнеса наиболее эффективным образом или как минимизировать издержки и при этом переложить значительную часть аналитической работы на плечи Машины? Хотелось бы автоматизировать процесс анализа и сделать его более объективным, а именно: получить некоторую технологию, которая бы автоматически извлекала из данных новые нетривиальные знания в форме моделей, зависимостей, законов и т.д., гарантируя при этом их статистическую значимость. Новейшая технология, - Knowledge discovery in databases (дословно, «обнаружение знаний в базах данных») - аналитический процесс исследования человеком большого объема информации с привлечением средств автоматизированного исследования данных с целью обнаружения скрытых в данных структур или зависимостей. Предполагается полное или частичное отсутствие априорных представлений о характере скрытых структур и зависимостей. KDD включает предварительное осмысление и неполную формулировку задачи (в терминах целевых переменных), преобразование данных к доступному для автоматизированного анализа формату и их предварительную обработку, обнаружение средствами автоматического исследования данных (data mining) скрытых структур или зависимостей, апробация обнаруженных моделей на новых, не использовавшихся для построения моделей данных и интерпретация человеком обнаруженных моделей.
Data mining (дословно, «разработка данных») - исследование и обнаружение “машиной” (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых структур или зависимостей, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Направленная на решение этих проблем - это технология knowledge discovery in databases (KDD). KDD - это синтетическая область, впитавшая в себя последние достижения искусственного интеллекта, численных математических методов, статистики и эвристических подходов. Цель технологии - нахождение моделей и отношений, скрытых в базе данных, таких моделей, которые не могут быть найдены обычными методами. Следует отметить, что на плечи Машины перекладываются не только “рутинные” операции (скажем, проверка статистической значимости гипотезы), но и операции, которые ранее было отнюдь не принято называть рутинными (выработка новой гипотезы). KDD позволяет увидеть такие взаимоотношения между данными, которые прежде даже не приходили в голову исследователю, а применение которых может способствовать увеличению эффективности работы и исследований, а в нашем конкретном случае позволит выявлять пакеты, являющиеся прямым следствием посягательством на вычислительные ресурсы. 2.2 Описание рассматриваемых хакерских атак 2.2.1 Подмена одного из субъектов TCP-соединения в сети Internet. Протокол TCP (Transmission Control Protocol) является одним из базовых протоколов транспортного уровня сети Internet. Этот протокол позволяет исправлять ошибки, которые могут возникнуть в процессе передачи пакетов, и является протоколом с установлением логического соединения - виртуального канала. По этому каналу передаются и принимаются пакеты с регистрацией их последовательности, осуществляется управление потоком пакетов, организовывается повторная передача искаженных пакетов, а в конце сеанса канал разрывается. При этом протокол TCP является единственным базовым протоколом из семейства TCP/IP, имеющим дополнительную систему идентификации сообщений и соединения. Именно поэтому протоколы прикладного уровня FTP и TELNET, предоставляющие пользователям удаленный доступ на хосты Internet, реализованы на базе протокола TCP. Для идентификации TCР-пакета в TCP-заголовке существуют два 32-разрядных идентификатора, которые также играют роль счетчика пакетов. Их названия - Sequence Number и Acknowledgment Number. Также нас будет интересовать поле, называемое Control Bits. Это поле размером 6 бит может содержать следующие командные биты (слева направо): URG: Urgent Pointer field significant ACK: Acknowledgment field significant PSH: Push Function RST: Reset the connection SYN: Synchronize sequence numbers FIN: No more data from sender Далее рассмотрим схему создания TCP-соединения (рис. 1). Рис. 1. Схема создания TCP-соединения Предположим, что хосту А необходимо создать TCP-соединение с хостом В. Тогда А посылает на В следующее сообщение: 1. A - > B: SYN, ISSa Это означает, что в передаваемом A сообщении установлен бит SYN (synchronize sequence number), а в поле Sequence Number установлено начальное 32-битное значение ISSa (Initial Sequence Number). В отвечает: 2. B - > A: SYN, ACK, ISSb, ACK(ISSa+1) В ответ на полученный от А запрос В отвечает сообщением, в котором установлен бит SYN и установлен бит ACK; в поле Sequence Number хостом В устанавливается свое начальное значение счетчика - ISSb; поле Acknowledgment Number содержит значение ISSa, полученное в первом пакете от хоста А и увеличенное на единицу. А, завершая рукопожатие (handshake), посылает: 3. A - > B: ACK, ISSa+1, ACK(ISSb+1) В этом пакете установлен бит ACK; поле Sequence Number содержит ISSa + 1; поле Acknowledgment Num-ber содержит значение ISSb + 1. Посылкой этого пакета на хост В заканчивается трехступенчатый handshake, и TCP-соединение между хостами А и В считается установленным. Теперь хост А может посылать пакеты с данными на хост В по только что созданному виртуальному TCP-каналу: 4. A - > B: ACK, ISSa+1, ACK(ISSb+1); DATA Из рассмотренной выше схемы создания TCP-соединения видно, что единственными идентификаторами TCP-абонентов и TCP-соединения являются два 32-бит-ных параметра Sequence Number и Acknowledgment Number. Следовательно, для формирования ложного TCP-пакета атакующему необходимо знать текущие идентификаторы для данного соединения - ISSa и ISSb. Проблема возможной подмены TCP-сообщения становится еще более важной, так как анализ протоколов FTP и TELNET, реализованных на базе протокола TCP, показал, что проблема идентификации FTP- и TELNET-пакетов целиком возлагается данными протоколами на транспортный уровень, то есть на TCP. Это означает, что атакующему достаточно, подобрав соответствующие текущие значения идентификаторов TCP-пакета для данного TCP-соединения (например, данное соединение может представлять собой FTP- или TELNET-подключение), послать пакет с любого хоста в сети Internet от имени одного из участников данного соединения (например, от имени клиента), и данный пакет будет воспринят как верный! К тому же, так как FTP и TELNET не проверяют IP-адреса отправителей, от которых им приходят сообщения, то в ответ на полученный ложный пакет, FTP- или TELNET-сервер отправит ответ на указанный в ложном пакете настоящий IP-адрес атакующего, то есть атакующий начнет работу с FTP- или TELNET-сервером со своего IP-адреса, но с правами легально подключившегося пользователя, который, в свою очередь, потеряет связь с сервером из-за рассогласования счет- чиков. Итак, для осуществления описанной выше атаки необходимым и достаточным условием является знание двух текущих 32-битных параметров ISSa и ISSb, идентифицирующих TCP-соединение. Рассмотрим возможные способы их получения. В том случае, когда атакующий находится в одном сегменте с целью атаки или через его сегмент проходит трафик предполагаемого объекта атаки, то задача получения значений ISSa и ISSb является тривиальной и решается путем анализа сетевого трафика. Следовательно, надо четко понимать, что протокол TCP позволяет, в принципе, защитить соединение только в случае невозможности перехвата атакующим сообщений, передаваемых по данному соединению, то есть в случае нахождения атакующего в других сегментах относительно абонентов TCP-соединения. Поэтому наибольший интерес для нас представляют межсегментные атаки, когда атакующий и его цель находятся в разных сегментах сети. В этом случае задача получения значений ISSa и ISSb не является тривиальной. Далее предлагается следующее решение данной проблемы. Рис. 2. Подмена одного из участников TCP-соединения Рис.2.1. X-Hacker посылает на Хост A серию TCP-запросов на создание соединения, заполняя тем самым очередь запросов, с целью вывести из строя на некоторое время Хост A. Рис2.2. X-Hacker от имени Хоста A посылает запрос на создание TCP-соединения на Хост B. Рис.2.3 Хост B отвечает хосту A на предыдущий запрос. Рис.2.4 Хост X-Hacker никогда не получит значения ISNb' от хоста B, но, используя математическое предсказание ISN, посылает на B от имени A пакет с ISNb'. При этом Хост A не может послать пакет с битом RST. 2.2.2 Нарушение работоспособности хоста в сети Internet при использовании направленного "шторма" ложных TCP-запросов на создание соединения, либо при переполнении очереди запросовИз рассмотренной в предыдущем пункте схемы создания TCP-соединения следует, что на каждый полученный TCP-запрос на создание соединения операционная система должна сгенерировать начальное значение идентификатора ISN и отослать его в ответ на запросивший хост. При этом, так как в сети Internet (стандарта IPv4) не предусмотрен контроль за IP-адресом отправителя сообщения, то невозможно отследить истинный маршрут, пройденный IP-пакетом, и, следовательно, у конечных абонентов сети нет возможности ограничить число возможных запросов, принимаемых в единицу времени от одного хоста. Поэтому возможно осуществление типовой удалённой атаки "Отказ в обслуживании", которая будет заключаться в передаче на атакуемый хост как можно большего числа ложных TCP-запросов на создание соединения от имени любого хоста в сети (рис. 3). При этом атакуемая сетевая ОС в зависимости от вычислительной мощности компьютера либо - в худшем случае - практически зависает, либо - в лучшем случае - перестает реагировать на легальные запросы на подключение (отказ в обслуживании). Это происходит из-за того, что для всей массы полученных ложных запросов система должна, во-первых, сохранить в памяти полученную в каждом запросе информацию и, во-вторых, выработать и отослать ответ на каждый запрос. Таким образом, все ресурсы системы "съедаются" ложными запросами: переполняется очередь запросов и система занимается только их обработкой. Эффективность данной удаленной атаки тем выше, чем больше пропускная способность канала между атакующим и целью атаки, и тем меньше, чем больше вычислительная мощь атакуемого компьютера (число и быстродействие процессоров, объем ОЗУ и т. д.). Рис.3 Нарушение работоспособности хоста в Internet, использующее направленный шторм ложных TCP-запросов на создание соединения Другая разновидность атаки "Отказ в обслуживании" состоит в передаче на атакуемый хост нескольких десятков (сотен) запросов на подключение к серверу, что может привести к временному (до 10 минут) переполнению очереди запросов на сервере. Это происходит из-за того, что некоторые сетевые ОС устроены так, чтобы обрабатывать только первые несколько запросов на подключение, а остальные - игнорировать. То есть при получении N запросов на подключение, ОС сервера ставит их в очередь и генерирует соответственно N ответов. Далее, в течение определенного промежутка времени, (тайм-аут 10 минут) сервер будет дожидаться от предполагаемого клиента сообщения, завершающего handshake и подтверждающего создание виртуального канала с сервером. Если атакующий пришлет на сервер количество запросов на подключение, равное максимальному числу одновременно обрабатываемых запросов на сервере, то в течение тайм-аута остальные запросы на подключение будут игнорироваться и к серверу будет невозможно подключиться. В заключение необходимо отметить, что в существующем стандарте сети Internet IPv4 нет приемлемых способов надежно обезопасить свои системы от этой удаленной атаки. К счастью, атакующий в результате осуществления описанной атаки не сможет получить несанкционированный доступ к вашей информации. Он сможет лишь "съесть" вычислительные ресурсы вашей системы и нарушить ее связь с внешним миром. Остается надеяться, что нарушение работоспособности вашего хоста просто никому не нужно. Для противодействия подобным атакам необходимо должным образом изменить конфигурацию систем и политику безопасности. Статистика показывает, что 90% узлов, подключенных к Internet, восприимчивы к таким атакам. 2.2.3 Другие виды атак В настоящее время технологии лавинных атак предусматривают блокировку отслеживания источника. В процессе такой атаки вместо заранее заданных используются случайные IP-адреса. Можно использовать и другой транспортный протокол. Например, широко распространена атака, осуществляющей лавинную блокировку по протоколу UDP при помощи широковещательных пакетов на систему под управлением WINNT. Широковещание может производиться на канальном и сетевом уровнях. Широковещание на канальном уровне производится в рамках одной текущей физической сети, в то время как широковещание на сетевом уровне осуществляется в пределах всех сетей, подключенных к текущей физической сети. Известно, что каждый подключенный к сети компьютер под управлением WINNT должен ответить на UDP-дейтаграмму с широковещательным адресом. Такие ответы сами по себе являются причиной затора в сети - так называемого “широковещательного шторма”. Другим слабым местом атакуемого хоста могут стать брандмауэры, например файрволл FW-1 не проверяет и не регистрирует фрагментированные пакеты до тех пор, пока они не будут вновь полностью собраны. Соответственно, посылая тысячи несвязанных фрагментированных пакетов на интерфейс атакуемого брандмауэра, удалённый нападающий может привести систему в нерабочее состояние. 2.3 Сеть самоорганизации на основе конкуренции Основу самоорганизации нейронных сетей составляет подмеченная закономерность, что глабальное упорядочение сети становится возможным в результате самоорганизующихся операций, независимо друг от друга проводящихся в различных сегментах сети. В соответствии с поданными входными сигналами осуществляется активация нейронов, которые вследствие изменения значений синаптических весов адаптируются к поступающим входным выборкам. При этом происходит естественное расслоение нейронов в различные группы. Отдельные нейроны или их группы сотрудничают между собой и активизируются в ответ на возбуждение, создаваемое конкретными обучающими выборками. При этом можно говорить как о сотрудничестве между нейронами внутри группы, так и о конкуренции между нейронами внутри группы и между различными группами. Среди механизмов самоорганизации особую популярность получил механизм конкуренции между нейронами на базе обобщенного правила Хебба. Время обучения задачам распознавания и кластеризации сети Кохонена более, чем в сто раз меньше времени обучения аналогичным задачам многослойного персептрона. Одними из определяющих характеристик сети Кохонена являются её хорошие способности к обобщению, позволяющие получать правильный выход даже при неполном или зашумлённом входном векторе. 2.3.1 Состав сети с самоорганизацией на основе конкуренции Нейроны реализуют функцию порогового суммирования взвешенных входов. Нейрон с максимальным значением взвешенной суммы (на заданных входной вектор), является «победителем». На его выходе формируется уровень логической «1», а на выходах остальных нейронов - «0». Перед обучением (самообучения) сети Кохонена, протекающим без учителя, необходимо выполнить предварительную нормализацию входных и весовых векторов. После нормализации входных векторов при активации сети вектором x в конкурентной борьбе побеждает тот нейрон, веса которого в наименьшей степени отличаются от соответствующих компонентов этого вектора. Для w-того нейрона-победителя выполняется отношение где d(x,w) обозначает расстояние (в смысле выбранной метрики) между векторами x и w, а n - количество нейронов. Вокруг нейрона-победителя образуется топологическая окрестность Sw(k) с определённой энергетикой, уменьшающейся с течением времени. Нейрон-победитель и все нейроны, лежащие в пределах его окрестности, подвергаются адаптации, в ходе которой их векторы весов изменяются в направлении вектора x по правилу Кохонена: для i принадл Sw(k), где обозначен коэффициент обучения i-го нейрона из окрестности Sw(k) в k-тый момент времени. Значение уменьшается с увеличением расстояния между i-тым нейроном и победителем. Веса нейронов, находящихся за пределами Sw(k) не изменяются. Размер окрестности и коэффициенты обучения нейронов являются функциями, значения которых уменьшаются с течением времени. После предъявления двух различных векторов x, например, x1 и x2, активизируются два нейрона сети, веса которых наиболее близки к координатам соответствующих векторов x1 и x2. Эти веса, обозначенные в векторной форме w1 и w2, могут отображаться в пространстве как две точки. Сближение векторов x1 и x2 вызывает соответствующее изменение в расположении векторов w1 и w2. В пределе равенство w1-w2 выполняется тогда и только тогда, когда x1 и x2 совпадают или практически неотличимы друг от друга. Сеть, в которой эти условия выполняются, называется топографической картой, или картой Кохонена. 2.3.2 Меры расстояния между векторами. Процесс самоорганизации предполагает определение победителя каждого этапа. В этой ситуации важной проблемой становится выбор метрики, в которой будет измеряться расстояние между векторами x и w. Чаще всего в качестве меры расстояния используются: эвклидова мера скалярное произведение мера относительно нормы L1 мера относительно нормы L? 2.3.3 Способы нормализации исходных данныхДля успешного обучения и функционирования нейронной сети Кохонена желательно, чтобы диапазоны изменения наблюдаемых величин не отличались друг от друга или отличались незначительно. Это требуется для того чтобы предотвратить чрезмерный вклад компонента исходных данных с широким диапазоном в модификацию весов. Наиболее распространенным способы нормализации является масштабирование исходных данных в некоторый диапазон: , , Формула (4.1) осуществляет масштабирование в диапазон [0;1]. Формула (4.2) - в диапазон [-1;1]. Расчетные значения параметра, полученные в результате функционирования нейросети, масштабируются в диапазон [min(p); max(p)] при помощи обратных формул. 2.3.4 Механизм утомления При инициализации весов сети случайным образом часть нейронов может оказаться в области пространства, в которой отсутствуют данные или их количество ничтожно мало. Эти нейроны имеют мало шансов на победу и адаптацию своих весов, поэтому они остаются мёртвыми. Таким образом, входные данные будут интерпретироваться меньшим количеством нейронов (мёртвые нейроны не принимают участие в анализе), а погрешность интерпретации данных, иначе называемая погрешностью квантования, увеличится. Поэтому важной проблемой становиться активация всех нейронв сети. Такую активацию можно осуществить, если в алгоритме обучения предусмотреть учёт количества побед каждого нейрона, а процесс обучения организовать так, чтобы дать шанс победить и менее активным нейронам. Такой способ учёта активности нейронов будет называться в дальнейшем механизмом утомления. Существуют различные механизмы учёта активности нейронов в процессе обучения. Часто используется метод подсчёта потенциала pi каждого нейрона, значение которого модифицируется всякий раз после представления очередной реализации входного вектора x в соответствии со следующей формулой (в ней предполагается, что победителем стал w-й нейрон): Значение коэффициента pmin определяет минимальный потенциал, разрешающий участие в конкурентной борьбе. Если фактическое значение потенциала pi падает ниже pmin, i-й нейрон “отдыхает”, а победитель ищется среди нейоронов, для которых выполняется отношение для 1<=i<=N и pi>=pmin. Максимальное значение потенциала ограничивается на уровне, равном 1. Выбор конкретного pmin позволяет установить порог готовности нейрона к конкурентной борьбе. При pmin=0 утомляемость нейронов не возникает, и каждый из них сразу после победы будет готов к продолжению соперничества. При Pmin=1 возникает другая крайность, вследствие которой нейроны побеждают по очереди, так как в каждый момент времени только один из них оказывается готовым к соперничеству. На практике хорошие результаты достигаются, когда pmin=0.75. 2.3.5 Алгоритм обучения карты КохоненаОсновным отличием данной технологии от наиболее распространенного обучения методом обратного распространения, является то, что обучение проходит без учителя, то есть результат обучения зависит только от структуры входных данных. Алгоритм функционирования самообучающихся карт Алгоритм SOM подразумевает использование упорядоченной структуры нейронов. Обычно используются одно и двумерные сетки. При этом каждый нейрон представляет собой n-мерный вектор-столбец своих весовых коэффициентов: , где n определяется размерностью исходного пространства (размерностью входных векторов). Применение одно и двумерных сеток связано с тем, что возникают проблемы при отображении пространственных структур большей размерности. Обычно нейроны располагаются в узлах двумерной сетки с прямоугольными или шестиугольными ячейками. При этом, нейроны также взаимодействуют друг с другом. Величина этого взаимодействия определяется расстоянием между нейронами на карте. На рисунке даны примеры расстояний для шестиугольной и четырехугольной сеток. При этом легко заметить, что для шестиугольной сетки расстояние между нейронами больше совпадает с евклидовым расстоянием, чем для четырехугольной сетки. Количество нейронов в сетке определяет степень детализации результата работы алгоритма, и, в конечном счете, от этого зависит точность обобщающей способности карты. Рис.4 - Расстояние между нейронами на шестиугольной (а) и четырехугольной (б) сетках Перед началом обучения карты необходимо проинициализировать весовые коэффициенты нейронов. Удачно выбранный способ инициализации может существенно ускорить обучение, и привести к получению более качественных результатов. Существуют два основных способа инициирования начальных весов: · Инициализация случайными значениями - всем весам даются малые случайные величины. · Инициализация примерами - всем весам в качестве начальных значений задаются значения случайно выбранных примеров из обучающей выборки. Обучение состоит из последовательности коррекций векторов, представляющих собой нейроны. На каждом шаге обучения из исходного набора данным случайно выбирается один из векторов (обозначим его х), а затем производится поиск наиболее схожего с ним вектора коэффициентов нейронов. При этом выбирается нейрон-победитель, который наиболее схожий с вектором входов. Под «схожестью» в данной задаче понимается некоторая метрика, заданная в пространстве входных векторов. В качестве метрики обычно используется расстояние в евклидовом пространстве. Узел нейрона-победителя для входного вектора после обучения нейросети называется «наиболее подходящим узлом» (Best Matching Unit - BMU). Таким образом, если обозначить нейрон-победитель номером c, то: , После того, как найден нейрон-победитель, производится корректировка весов нейросети. При этом вектор, описывающий нейрон-победитель и вектора, описывающие его соседей в сетке, перемещаются в направлении входного вектора. Это проиллюстрировано на рисунке для двумерного вектора. Рис.5 - Подстройка весов нейрона победителя и его соседей При этом для модификации весовых коэффициентов используется формула: , где t обозначает номер эпохи (номер итерации обучения). Функция h(t) называется функцией соседства нейронов. Эта функция представляет собой невозрастающую функцию от времени и расстояния между нейроном-победителем и соседними нейронами в сетке. Эта функция разбивается на две части: собственно функцию расстояния и функции скорости обучения от времени: , где r - координаты нейрона в сетке. Обычно применяется одна из двух функций от расстояния: простая константа: , или Гауссова функция: , При этом является убывающей функцией от времени. Эту величину называют радиусом обучения. Он выбирается достаточно большим на начальном этапе обучения и постепенно уменьшается так, что в конечном итоге обучается один нейрон-победитель. Наиболее часто используется функция, линейно убывающая от времени. Функция скорости обучения также представляет собой функцию, убывающую от времени. Наиболее часто используются два варианта этой функции: линейная и обратно пропорциональная времени вида: , где A и B это константы. Применение этой функции приводит к тому, что все вектора из обучающей выборки вносят примерно равный вклад в результат обучения. Обучение состоит из двух основных фаз: на первоначальном этапе выбирается достаточно большое значение скорости обучения и радиуса обучение, что позволяет расположить вектора нейронов в соответствии с распределением примеров в выборке, а затем производится точная подстройка весов, когда значения параметров скорости обучения много меньше начальных. 2.3.6 Алгоритм нейронного газа В этом алгоритме на каждой итерации все нейроны сортируются в зависимости от их расстояния до вектора x. После сортировки нейроны размечаются в последовательности, соответствующей увеличению удалённости. где dk=|x-wm(i)| обозначает удалённость i-того нейрона, занимающего в результате сортировки m-ю позицию в последовательности, возглавляемой нейроном-победителем, которому сопоставлена удаленность d0. Значение функции соседства для i-того нейрона G(i,x) определяется по формуле: в которой m(i) обозначает очерёдность, полученную в результате сортировки (m(i)=1,2,3,…,n-1), а лямбда - параметр, аналогичный уровню соседства в алгоритме Кохонена, уменьшающийся с течением времени. При лямбда =0 адаптации подвергается только нейрон-победитель, и алгоритм превращается в обычный алгоритм WTA, но при уточнению подлежат веса многих нейронов, причём уровень уточнения зависит от величины G(i,x). Для достижения хороших результатов самоорганизации процесс обучения должен начинаться с большого значения лямбда, однако с течением времени его величина уменьшается до нуля. 3. Формализация задачи В качестве группы пакетов, выступающих в качестве обучающего примера, возьмём 10 подряд идущих поступающих на рабочую станцию пакетов. Для построения модели оценим в каждой группе следующие параметры: 1.Число пакетов поступивших от хостов “своей” ЛВС. 2.Число фрагментированных пакетов. 3.Число TCP-пакетов. 4.Число UDP-пакетов. 5.Максимальное число пакетов в группе, пришедших от одного из хостов-отправителей. 6.Принадлежность хоста, отправителя наибольшего числа пакетов. (1 - “своя” ЛВС, 0 - иначе) 7.Средняя загрузка процессора (без учёта приложений не связанных с сетью). (%) 8.Изменение загрузки процессора с времени получения первого пакета до времени получения последнего пакета (без учёта приложений не связанных с сетью).(%) 9.Средний размер пакета. (байт) 10.Число пакетов размером в интервале с 0.8*x до 1.2*x, где x - средний размер пакета. 11. Число доступных хостов. 12. Число различных хостов. Вышеперечисленные параметры будут являться входами модели. Пользователю следует определить размер карты Кохонена, а также параметры настройки нейронной сети. Остаётся только сгенерировать различные пакеты TCP, UDP и ICMP как обычные, так и “хакерские”, и переслать их на хост, ведущий журнал входящих пакетов и их параметров. Из данного журнала пакеты объединяются в группы (10 последовательно идущих пакетов). Для каждой группы определяются выделенные интегральные критерии. Полученные данные служат для самообучения сети. 4. Эксперимент На локальную станцию (192.168.0.3) поступают следующие пакеты: TCP - обычные пакеты от станций собственной ЛВС. Соединение происходит в обычном режиме. Передача файлов. ICMP - обычные пакеты, “проверка связи”. UDP - обычные пакеты от станций ЛВС, обмен данными между приложениями BroodWar, Blizzard Intertainment. TCP - обычные пакеты от хостов, на принадлежащих “своей” ЛВС, передача файлов. TCP - “хакерские” пакеты. Паническая атака. ICMP - пакеты, являющиеся следствием широковещательного шторма. UDP - “хакерские” пакеты (посылка широковещательного шторма). TCP - “хакерские” пакеты, фрагментрованные и не связанные между собой (aтака на файрфолл). Эксперимент представляет собой посылку и запоминание чередующихся обычных и “опасных” пакетов. Причём в группе, относящийся к классу зарождающейся атаки, могут присутствовать и совершенно безвредные пакеты с данными и сообщениями. Того как заранее определённое число пакетов было получено и после предобработки в группы произошло обучение модели, необходимо произвести визуализацию карты Кохонена. На карте, состоящей из квадратов, где за каждый квадрат отвечает один нейрон, производится заливка в зависимости от класса опасности. Нейроны, отвечающие за класс - тотальная атака (большое число опасных пакетов), окрашиваются в более тёмно красные цвета, нейроны, классифицирующие обычную работу станции в сети (приём-передача данных), окрашены в более нейтральные цвета. 5. Результаты работы модели 1.Стандартный алгоритм Кохонена. Карта 10*10 нейронов. Рис.5 Визуализация карты Кохонена при обучении стандартным алгоритмом Кохонена Из-за того что многие нейроны после обучения остались мертвыми нейронная сеть имеет высокую погрешность квантования. Самые опасные классы характеризуются следующими параметрами: небольшие по размеру пакеты, значительное количество пакетов одного типа, например только ICMP или UDP, и одного размера, во время получения этих групп пакетов происходит существенная загрузка процессора, значительная часть хостов - отправителей не доступны. Другим опасным классом является кластер с большими по размерам фрагментированными пакетами. 2.Стандартный алгоритм Кохонена с учётом соседства. Карта 10*10 нейронов. Рис.6 Визуализация карты Кохонена при обучении стандартным алгоритмом Кохонена с учётом соседства Из-за подстройки большего числа нейронов значительная часть нейронов - “живая”. Погрешность квантования значительно ниже. Визуально прослеживается группирование опасных групп пакетов. Между двумя основными очагами опасности (в левом и правом углах карты) расположены группы пакетов соответствующие безопасной передаче. 3.Обучение карты признаков с механизмом утомления. Карта 10*10 нейронов. Рис.7 Визуализация карты Кохонена при обучении с использованием механизма утомления. 4. Обучение карты признаков с механизмом утомления и подстройкой соседей. Карта 10*10 нейронов. Рис.8 Визуализация карты Кохонена при обучении обучении с использованием механизма утомления и подстройкой соседей. 5 .Алгоритм нейронного газа.= Рис.9 Визуализация карты Кохонена при обучении. Алгоритмом нейронного газа Большой разброс по карте различных цветов объясняется самим алгоритмом обучения: здесь соседство нейронов не зависит от расположения нейронов на карте признаков. Кроме визуализации карты важны также значения синаптических весов. Синаптический вес W0=1- поляризация нейрона. Пример.1 Рис.10 Карта Кохонена. 5*5 нейронов. Ниже даны значения синаптических весов для каждого из “живых” нейронов. |
Нейрон 0 1 7,87128697398845 0,625510201518193 2,7803597528978 1,89207931247814 3,29053079148225 0,846173185063035 13,5345966850206 7,0865225491331 129,307664502201 1,40585258052631 9,01013368873421 | Нейрон 1 1 7,15478814257012 0,80038505604928 3,4657135681091 2,14143521744823 3,44359875511805 0,776338372597683 12,9441507600633 5,13478248587067 183,45652320823 0,892269137377325 8,8894329158617 | Нейрон 2 1 6,51072352952404 0,992340068508278 4,06763582460853 2,78810515781772 3,8079162430252 0,67583544535221 11,7697105357889 1,88885822746819 277,625057718703 0,489223807498444 9,01986066715186 | Нейрон 3 1 5,89443270744136 1,07835225630037 5,00871505425791 3,21406653769472 4,05965826713145 0,688612599435516 9,64055979833943 0,176019982013541 349,212505651654 0,307102637433364 8,2882446272146 | | Нейрон 4 1 5,70325599064924 1,50203934884403 5,48238703058519 2,857530344957 4,1045922884135 0,559367823973787 9,80870961032371 -2,51748577298294 388,707709851468 0,360064195846817 8,67487120799402 | Нейрон 6 1 6,98662538009356 0,943325646563848 3,76316661580884 2,28074699102588 3,84435226155865 0,675295943164295 13,1166889150889 2,5894675318043 232,422065671803 0,578616436145349 9,30231795759802 | Нейрон 7 1 6,4383154761932 1,30743427921713 4,43322764797434 2,5712769815738 4,015643912254 0,585958396325411 11,4384134686756 0,295227565032279 308,441204991856 0,436934279428607 9,22429249868916 | Нейрон 8 1 6,2914496789632 1,49510940329358 5,16485493868028 2,94683540727014 4,26732605590749 0,59451625983309 10,9123469737949 -2,32327270509521 397,564552174538 0,581383154548032 9,07977817163535 | | Нейрон 9 1 5,78995420800614 1,73921623428801 5,64413639879408 2,83323796423943 4,40990583312066 0,500543095760549 11,1144609757214 -5,73252740367375 449,019038281951 0,657035152619139 9,23115369270226 | Нейрон 10 1 6,97268621817446 0,79277691809128 4,02543058948051 2,46523221397023 3,77806690364019 0,676526389633808 13,8202281014187 0,469769683982962 259,238919476768 0,757542791254212 9,28309047834848 | Нейрон 11 1 7,04631978115591 0,866271976699346 4,10365456015304 2,88223720882954 4,03150518348344 0,741278370899166 13,8559400919982 -1,255919505345 293,322921366235 0,704152207962319 9,48440166138134 | Нейрон 12 1 6,53912681147659 1,56421780805537 4,65601147347958 2,9067904818665 4,27363452636153 0,618578255936595 12,5822623306945 -2,08418808911294 374,872439162492 0,774431791221968 9,54008041266804 | | Нейрон 13 1 5,69340841412797 2,44796836439865 5,48622818955848 2,92237813180815 4,67788797387526 0,423401926734283 12,1938129780133 -3,92356491480928 497,650849296462 1,22621001209077 9,58796185267328 | Нейрон 14 1 5,10226147046721 2,74988223156105 5,9342783502907 2,83173118981968 4,95695609620259 0,316516196981386 12,0153591762438 -5,69212277788297 553,351005991353 1,42911651866737 9,61230903245157 | Нейрон 15 1 6,98052845303821 1,22279827555202 4,46220766547028 2,90189348319595 4,15096271989555 0,718494733032167 13,8462699925973 -0,265034800167613 329,133144315137 0,789272703113608 9,41327311392812 | Нейрон 16 1 6,78108488859872 1,4587788312988 4,75098402281347 2,99715775219415 4,35524349138507 0,688106328846737 13,146546408368 -1,83766433492922 378,789970538933 0,911094890831572 9,47688044148138 | | Нейрон 17 1 5,9813392597355 2,59141112244731 5,42222552146448 2,88984764450358 4,90655379368435 0,558857955310756 12,3129769708837 -1,59557885143347 509,639060778038 1,46442141785324 9,64035319482989 | Нейрон 18 1 4,37316852020513 3,93024605710541 6,35532277636607 2,54556862325942 5,71566995847879 0,301720400062721 12,1338787032946 -0,810932403256381 666,82904006035 2,40887775038786 9,71260136248531 | Нейрон 19 1 3,82835833175608 4,14740478540821 6,51201817449346 2,53488453447905 5,87186670401515 0,209331814630084 12,1270372594924 -1,30049493872786 704,444674316111 2,25030241452771 9,65725372019714 | Нейрон 21 1 6,39813422562582 2,08493929159042 5,32829499657161 3,06032597511598 4,7641814353147 0,582189552264411 12,5599245219555 -1,96191395295381 469,290874929838 1,22613369905861 9,46669357056521 | | Нейрон 23 1 3,55908012277478 4,77646016724021 6,74861021282903 2,41585236193159 6,31871793270481 0,255152204011248 12,1980038558062 1,93696746210735 759,876377313462 2,82715213468638 9,64367900062772 | Нейрон 24 1 3,37428950504548 4,73559755878779 6,67504947616927 2,51158813130044 6,22501279809869 0,20990156336746 12,1086739774428 1,00744771459805 778,544161691368 2,27296953057915 9,5765164059112 | | | | |
Страницы: 1, 2
|
|