Una comunicación equilibrada

Scientific Reports volumen 13, Número de artículo: 9083 (2023) Citar este artículo

56 Accesos

1 Altmetric

Detalles de métricas

El campo de Internet de las cosas ha creado muchos desafíos para las arquitecturas de red. Garantizar la seguridad del ciberespacio es el objetivo principal de los sistemas de detección de intrusos (IDS). Debido al aumento en el número y tipos de ataques, los investigadores han buscado mejorar los sistemas de detección de intrusos protegiendo de manera eficiente los datos y dispositivos conectados en el ciberespacio. El rendimiento de IDS está esencialmente ligado a la cantidad de datos, la dimensionalidad de los datos y las funciones de seguridad. Este artículo propone un modelo IDS novedoso para mejorar la complejidad computacional al proporcionar una detección precisa en menos tiempo de procesamiento que otros trabajos relacionados. El método del índice Gini se utiliza para calcular la impureza de las características de seguridad y refinar el proceso de selección. Se realiza un método de árbol de decisión de máquina de vector de soporte equilibrado que evita la comunicación para mejorar la precisión de detección de intrusos. La evaluación se lleva a cabo utilizando el conjunto de datos UNSW-NB 15, que es un conjunto de datos real y está disponible públicamente. El modelo propuesto logra un alto rendimiento de detección de ataques, con una precisión de aproximadamente el 98,5%.

El Internet de las Cosas (IoT) es ampliamente utilizado en nuestra vida diaria. Los dispositivos electrónicos tenían que estar conectados a Internet para soportar el monitoreo y la gestión. Los algoritmos de inteligencia artificial (IA) han agregado grandes oportunidades a los sistemas de inteligencia distribuida. Los métodos de IA forman tomadores de decisiones inteligentes y reducen la centralización de decisiones, que requieren un consumo de tiempo considerable. Sin embargo, la complejidad de los sistemas inteligentes distribuidos aumenta continuamente1. Esta complejidad se revela en términos de la enorme cantidad de datos, la naturaleza de los datos, el tamaño de los conjuntos de datos y los algoritmos inteligentes2. Estos desafíos constituyen un entorno ideal para los ciberataques.

Los sistemas de detección de intrusos (IDS) siempre han buscado seguir el aumento de la complejidad del sistema. Los sistemas IDS tienen como objetivo proteger tanto los dispositivos físicos como los datos del usuario. Por tanto, la ciberseguridad es la clave del éxito de los servicios en la nube. Los métodos tradicionales que utilizan cortafuegos, autenticación de usuarios y encriptación son insuficientes para proteger los dispositivos en el ciberespacio. Esta insuficiencia se debe a la nueva detección de intrusos que está aumentando rápidamente3,4. Los IDS han intentado detectar ataques recientes como ataques de phishing, denegación de servicio, malware, etc. El novedoso IDS busca reconocer un nuevo ataque de acuerdo al comportamiento de la red. Basado en el algoritmo de IA, un IDS clasifica si el comportamiento de la red es normal o anormal.

Los enfoques de Machine Learning (ML) se han convertido en una necesidad vital para los sistemas de detección de intrusos. Estos enfoques podrían lograr una clasificación precisa del comportamiento de la red para prevenir ataques cibernéticos. Los IDS utilizan muchos métodos de aprendizaje automático, como las máquinas de vectores de soporte (SVM), los k-vecinos más cercanos (k-NN), las regresiones logísticas (LR), los árboles de decisión (DT) y Naïve Bayes (NB) para detectar intrusiones5,6. ,7. Otros métodos que se utilizan para mejorar la precisión de detección de ataques. Todos estos métodos todavía sufren de muchas dimensiones o características de los datos y el flujo masivo de tráfico de datos. Estos desafíos conducen a la complejidad del procesamiento y requieren un tiempo considerable. Por lo tanto, proporcionar un IDS confiable es el principal objetivo en el campo de la ciberseguridad.

Como resultado, los sistemas de detección de intrusos enfrentan los siguientes desafíos: (1) múltiples naturalezas, dimensionalidad y características de los datos; (2) Alto flujo de tráfico de datos; (3) Complejidad computacional; y (4) Requiere un tiempo considerable. A la luz de esta introducción, este documento busca proporcionar un sistema de detección de intrusos más preciso basado en el método Balanced Communication-Avoiding Support Vector Machine Decision Tree (BCA-SVMDT). El objetivo propuesto es apoyar la complejidad proporcionando una detección precisa en menos tiempo de procesamiento que otros trabajos relacionados. Los objetivos son los siguientes:

Modele un sistema de detección de intrusos basado en BCA-SVMDT para detectar de manera eficiente ataques en el ciberespacio.

Verifique el desempeño del modelo propuesto de acuerdo con la exactitud, precisión, recuperación y puntaje F.

Comparar el modelo propuesto con sistemas de detección de intrusos basados en métodos tradicionales de aprendizaje automático.

El resto de este documento está organizado de la siguiente manera. Los trabajos relacionados se citan y discuten en la sección dos. La sección tres describe el sistema de detección de intrusos propuesto realizado de acuerdo con los métodos BCA-SVM y DT. Los experimentos y hallazgos se destacan en la sección cuatro. Finalmente, la conclusión y el trabajo futuro se presentan en la última sección.

Los sistemas de detección de intrusos buscan evitar los ataques a la red. Estos ataques se pueden clasificar en cuatro tipos esenciales:

El atacante sobrecarga muchos recursos (memoria, interfaz de red, servicios, etc.). Este tipo de ataque se denomina ataque de denegación de servicio (DoS).

El atacante intenta utilizar el sistema como un usuario normal. Este tipo de ataque se denomina ataque remoto a local (R2L).

El atacante inicia sesión en el sistema como un usuario normal y luego intenta cambiar los términos del administrador. Este tipo de ataque se denomina ataque User-to-Root (U2R).

El atacante intenta escanear el tráfico de la red para encontrar información útil para las computadoras de acceso remoto. Este tipo de ataque se denomina ataque de sondeo.

En esta sección, nos enfocamos en los métodos IDS basados en SVM propuestos en la literatura.

Wang et al.8 intentaron detectar intrusiones utilizando un conjunto de datos más pequeño proporcionado por los datos de entrenamiento primario. Los autores realizan tres pasos para garantizar la detección de intrusiones de la siguiente manera: (1) extraer los modelos de detección del conjunto de datos, (2) analizar los datos de auditoría de capacitación y (3) detectar anomalías en la red. El primer paso está asegurado en base al método de extracción ejemplar. El segundo paso utilizó propagación de afinidad y agrupamiento de medios K. El tercer paso aplicó el análisis de componentes principales (PCA), un k-NN y un SVM para detectar el comportamiento anormal de la red. El conjunto de datos de Knowledge Discovery and Data Mining Tools Competition (KDD Cup) y el tráfico real de HyperText Transfer Protocol (HTTP) se emplean para evaluar su sistema de detección de intrusos.

He et al.9 intentaron acelerar la detección utilizando el método twin SVM, que requiere menos tiempo de entrenamiento que el SVM. El IDS propuesto se compone de núcleos gemelos SVM y Radial Basis Function (RBF). Desafortunadamente, este método requiere un tiempo de predicción considerable. Los autores evaluaron su IDS en ataques R2L y U2R a través del conjunto de datos de la Copa KDD. Lin et al.10 agregaron SVM y clasificadores de árboles de decisión para encontrar características significativas relacionadas con los comportamientos de ataque. El método propuesto buscaba seleccionar reglas de decisión utilizando el conjunto de datos de KDD Cup y detectar ataques previstos.

Shang et al.11 combinaron el clasificador SVM y el método Particle Swarm Optimization (PSO). Los autores intentaron detectar anomalías utilizando una clase de muestras entrenadas por el método PSO. La evaluación se realiza sobre datos reales de tráfico de red y las comparaciones son limitadas. Khreich et al.12 se centraron en las llamadas y los rastreos del sistema. Los autores agregaron entre la frecuencia y la información temporal que utilizará la SVM en la fase de entrenamiento. Su IDS se verifica de acuerdo con el conjunto de datos de Linux de la Academia de las Fuerzas de Defensa de Australia (ADFA-LD).

Cid-fuentes et al.13 utilizaron SVM y clasificadores de árboles de decisión para mejorar la precisión de un IDS. Teng et al. 14 construyeron su modelo en SVM de 2 clases y métodos de árboles de decisión. Los autores intentaron disminuir la sobrecarga y mejorar la tasa de detección de ataques. Hu et al.15 combinaron el SVM con clasificadores Adaboost. Los autores usaron Adaboost porque era un método iterativo. Adaboost mejoró el rendimiento de clasificación aprendiendo de los errores y debilidades de los clasificadores. Hu et al. proporcionó detección global en cada nodo usando Adaboost dos veces. El primer uso seleccionó los tocones de decisión y el segundo uso mejoró el Adaboost en línea.

Aburomman et al.16 buscaron aumentar la precisión de un IDS utilizando un clasificador k-NN. Su sistema propuesto utilizó seis modelos SVM y seis k-NN en la fase de entrenamiento. Los autores aplicaron los métodos PSO y Weighted Majority Algorithm (WMA) para la fase de decisión. Wu et al.17 presentaron un IDS basado en redes de creencias profundas y un SVM ponderado. El rendimiento de la red de creencias profundas se ve mejorado por el método de tasa de aprendizaje. Luego, la SVM se entrena utilizando el método PSO. Los resultados conducen a una SVM ponderada eficiente.

Anil et al.18 introdujeron un IDS utilizando el algoritmo genético (GA) y la función de entropía. Este método proporciona una alta capacidad para extraer características del conjunto de datos de KDD Cup. Los autores aplicaron un Mapa de características autoorganizado (SOFM) con SVM para encontrar la similitud entre los grupos en el conjunto de datos. Los autores demostraron que su enfoque logró una alta tasa de detección con un tiempo de cálculo bajo. Yi et al.19 propusieron un método SVM incremental para disminuir el ruido que aparecía debido a las diferencias de características. Se utiliza una función kernel modificada basada en la función gaussiana con la SVM durante la fase de entrenamiento.

Chitrakar et al.20 introdujeron un enfoque basado en una SVM con el método de media partición. La característica incremental del SVM y el método de anillo concéntrico permitieron la detección de intrusiones en tiempo real. Thaseen et al.21 presentan un método basado en clasificadores SVM multiclase para detectar intrusiones. El propósito es identificar varias clases de acuerdo con el tráfico de la red. Los autores emplearon el filtrado chi-cuadrado en lugar del SVM multiclase para mejorar el paso de selección de funciones. La experimentación se realiza utilizando el conjunto de datos NSL-KDD y la biblioteca Libsvm en el entorno MATLAB. Los resultados obtenidos demostraron la efectividad del método propuesto en términos de precisión y costos de tiempo.

Kuang et al.22 introdujeron un modelo IDS basado en el enfoque SVM multicapa. El modelo comprende cuatro clasificadores SVM y un método mejorado de optimización de enjambre de partículas caóticas (ICPSO). Los autores buscaron detectar los cuatro tipos esenciales de ataques (R2L, DoS, U2R y probe). El esquema IDS presentado se mejora mediante el uso de Análisis de Componentes Principales (PCA) con un SVM para reducir el tiempo de entrenamiento. La experimentación se lleva a cabo en el entorno MATLAB utilizando el conjunto de datos KDD Cup. Los hallazgos mostraron que el método mejoró la precisión de detección y redujo el tiempo de procesamiento en las fases de entrenamiento y prueba.

Jaber et al.23 buscaron modelar un sistema IDS usando el proceso de agrupamiento. Los autores combinaron el clasificador SVM y el método de agrupación en clústeres Fuzzy C-Means (FCM) para garantizar una computación en la nube más precisa. Realizaron experimentos utilizando la simulación Weka con el conjunto de datos NSL-KDD. Safaldin et al.24 propusieron un esquema IDS utilizando el optimizador binario Grey Wolf (GWO) como método metaheurístico con SVM. El algoritmo GWO para mejorar los parámetros durante el entrenamiento SVM. La verificación del modelo propuesto se realiza utilizando el conjunto de datos NSL-KDD '99.

Cheng et al.25 agregaron el clasificador SVM con el algoritmo bat para diseñar un modelo IDS. El algoritmo bat se emplea en la fase de entrenamiento para encontrar los parámetros óptimos de la SVM. El conjunto de datos KDD Cup '99 se utiliza en los experimentos de simulación. Raman et al.26 realizaron un modelo IDS basado en una SVM y un algoritmo genético. En el paso de selección se aplica un método denominado Algoritmo genético basado en hipergrafos (HG-GA) para identificar los parámetros óptimos para el clasificador SVM. El HG-GA proporcionó la solución óptima y evitó quedar atrapado en los mínimos locales. El HG-GA SVM basado en IDS se simula utilizando el conjunto de datos NSL-KDD.

Kalita et al.27 intentaron manejar las intrusiones utilizando SVM y Particle Swarm Optimization (PSO). El modelo IDS basado en el clasificador SVM logró una mayor precisión cuando los parámetros seleccionados fueron bien elegidos. Los autores aplicaron una variante de PSO y un algoritmo multi-PSO en el paso de selección para garantizar un mejor rendimiento. Li et al.28 propusieron un modelo IDS basado en el algoritmo de la colonia artificial de abejas (ABC) para la selección de características y el clasificador SVM. El método ABC se mejora utilizando la codificación de fuente de miel y el método de búsqueda de vecindad para recuperar los parámetros óptimos para SVM.

Mehmod et al.29 buscaron mejorar el método de selección antes de usar un clasificador SVM para identificar ataques. Los autores se centraron en funciones útiles evitando el ruido y la redundancia. El método de selección se realiza aplicando el algoritmo de optimización de colonias de hormigas en el conjunto de datos KDD Cup '99. Acharya et al.30 adoptaron una SVM basada en un enfoque general para diseñar un IDS. Con respecto al paso de selección, los autores propusieron un algoritmo de gota de agua inteligente (IWD) para seleccionar las características relevantes para la clasificación. El conjunto de datos de la Copa KDD '99 se utiliza para evaluar el IDS propuesto.

Li et al.31 afirmaron que el algoritmo Velocity Adaptive Shuffled Frog Leaping Bat Algorithm (VASFLBA) fue un método efectivo para el proceso de selección. El procedimiento se basa en dos factores adaptativos para equilibrar la búsqueda global y local. El algoritmo Shuffled Frog Leaping (SFLA) mejoró el mecanismo de transferencia. Las funciones seleccionadas se entrenaron de acuerdo con los clasificadores SVM en el conjunto de datos del Sistema de control industrial (ICS). Bostani et al.32 diseñaron un sistema IDS basado en la selección de características híbridas. Se utilizó un algoritmo de búsqueda gravitacional binaria (BGSA) e información mutua (MI) para realizar el paso de selección. La experimentación se lleva a cabo utilizando el conjunto de datos NSL-KDD.

Kabir et al.33 introdujeron la Máquina de vectores de soporte de mínimos cuadrados (LS-SVM) para construir un IDS preciso. El algoritmo de asignación óptima procede a seleccionar muestras representativas. El IDS se prueba utilizando el conjunto de datos KDD Cup '99. Saleh et al.34 propusieron un IDS híbrido (HIDS) basado en la clasificación multiclase. El paso de selección utiliza el método Naïve Bayes Feature Selection (NBFS). Su objetivo era disminuir la dimensionalidad de los datos de muestra. El modelo rechaza los valores atípicos utilizando un clasificador de máquina de vectores de soporte optimizado (OSVM) en el entrenamiento. Luego, se emplea una técnica Prioritized k-Nearest Neighbors (PKNN) para detectar ataques. Los resultados de los conjuntos de datos KDD Cup '99, NSL-KDD y Kyoto 2006+ demostraron la precisión de la detección a un bajo costo de tiempo.

Nskh et al.35 modelaron un IDS basado en diferentes núcleos SVM. Los autores redujeron la dimensionalidad del conjunto de datos aplicando el análisis de componentes principales (PCA) y adoptando el kernel de función de base radial gaussiana de SVM. Wang et al.36 se centraron en los inconvenientes que consumen mucho tiempo relacionados con un IDS. Los autores introdujeron un modelo paralelo basado en un PCA-SVM implementado en la placa Spark. El PCA asegura la fase de entrenamiento y el SVM se fusiona a través de la técnica de integración de embolsado.

A la luz de esta breve descripción de los trabajos relacionados, los IDS aún enfrentan los siguientes cinco desafíos37,38:

Desafío de conjuntos de datos grandes Una gran cantidad de datos en un conjunto de datos conduce a pasos de entrenamiento que consumen mucho tiempo. Se proponen métodos ejemplares de extracción y métodos de agrupamiento para reducir el tamaño del conjunto de datos sin perder información relevante.

El desafío de la normalización La calidad de los datos influye directamente en la precisión de los sistemas de detección de intrusos. El método de normalización reconstruye los datos para obtener datos valiosos y reduce el tiempo de procesamiento. Seleccionar el mejor método de normalización es un paso crucial para IDS.

Desafío del método de aprendizaje SVM El SVM, como método de aprendizaje supervisado, maneja eficientemente los datos etiquetados. Además, los datos sin etiquetar se encuentran en las aplicaciones y el clasificador SVM está limitado en casos reales. Se propusieron métodos semisupervisados en la literatura para respaldar tanto los datos etiquetados como los no etiquetados.

Desafío de aprendizaje incremental Dado que los datos de entrenamiento no están disponibles todo el tiempo, un IDS no puede detectar nuevos ataques. IDS en tiempo real que admite reentrenamiento frecuente (aprendizaje incremental) es la mejor solución.

Desafío de aprendizaje en línea Como una SVM no admite el reentrenamiento periódico, el clasificador no puede gestionar las solicitudes de un sistema de detección de intrusos en línea. Algunos intentos utilizan una SVM en línea para respaldar las demandas de aprendizaje en línea.

En este documento, el IDS propuesto busca abordar los desafíos anteriores. El modelo comprende un método de selección y un clasificador híbrido basado en el método Balanced Communication-Avoiding Support Vector Machine Decision Tree (BCA-SVMDT). El método de selección tiene como objetivo seleccionar las características más significativas a ser entrenadas. El BCA-SVMDT, que se analiza en la siguiente sección, asegura la fase de entrenamiento.

El modelo propuesto se presenta en esta sección. El modelo IDS se compone de tres módulos principales, como se muestra en la Fig. 1. El modelo de intrusión se construye en base a un árbol de decisión; y en un nodo en particular, se utiliza el clasificador BCA-SVM. El modelo ilustrado en la Fig. 1 se detalla en las siguientes secciones.

Modelo BCA-SVMDT.

Este paso se centra en la calidad de los datos. Para garantizar la precisión del modelo de predicción, la exploración de datos inspecciona los datos para explorar sus características. El tipo de datos (numéricos o categóricos) se verifica para determinar un modelo estadístico o de predicción adecuado. En nuestro caso se utiliza el dataset UNSW-NB 1539. Este conjunto de datos está disponible en línea y está compuesto por 175.341 registros. El conjunto de datos UNSW-NB 15 abarca 44 características, incluido el estado normal y de ataque. El proceso de exploración de datos determina tres características (proto, estado y servicio) que son nominales. Las demás funciones se definen mediante valores numéricos (binario, entero y flotante). Las características nominales tienen que ser consideradas para el siguiente paso (codificación de características de seguridad) para transformarse de valores nominales a valores numéricos.

Este paso codifica los valores nominales determinados por el paso de exploración de datos. Las características nominales (prototipo, estado y servicio) se codifican mediante el método de codificación de etiquetas. Este método no creó características adicionales como el método de codificación en caliente. Esta es la razón por la que se elige el método de codificación de etiquetas para transformar estas tres características de valores nominales a valores numéricos. El método etiqueta el mismo parámetro con el mismo valor numérico. El ejemplo ilustrado en la Fig. 2 describe el método de codificación de etiquetas. El paso de codificación de la función de seguridad se realiza mediante el método LabelEncoder y la clase sklearn en Python.

Método de codificación de etiquetas.

Este paso maneja datos con diferentes escalas. Su objetivo es reescalar los valores de todas las características de acuerdo con una media cero y una variación unitaria. El proceso de normalización es fundamental en la fase de entrenamiento para proporcionar un modelo de clasificación preciso. El valor reescalado se calcula a través de la siguiente ecuación.

\({D}_{S}\) es el valor escalado, \({D}_{i}\) es el valor original, \(\overline{D }\) es el valor medio de la característica y la desviación estándar está representada por \(\sigma\). La normalización se realiza para cada función que tiene una distribución diferente utilizando la clase sklearn en Python.

Este paso tiene como objetivo seleccionar características significativas que apoyen el proceso de toma de decisiones. El método del índice Gini se aplica para garantizar la clasificación de características. Se ha empleado en ataques binarios y datos benignos, mientras que el índice de Gini funciona mejor en datos multiclase40. El método del índice de Gini se realiza de la siguiente manera: (1) detecta la impureza de las características; (2) clasifica las características según la impureza de Gini, que se define por la entropía; y (3) construye el árbol de decisión. El índice de Gini se calcula en cada nodo utilizando la ecuación. (2).

donde n es un nodo, T es el número de todos los nodos y \({P}_{i}\) es la probabilidad de una tupla.

El índice Gini se aplica a todas las características del conjunto de datos UNSW-NB 15. La Tabla 1 ilustra la clasificación asociada con las características de seguridad.

La selección de las características de seguridad importantes se realiza de acuerdo con el umbral (umbral = 0,023) que se define a través del modelo de árbol. El valor del umbral se puede cambiar de acuerdo con el conjunto de datos utilizado. El número de funciones seleccionadas se reduce de 42 a 15 funciones.

La Figura 3 muestra las características seleccionadas y sus puntajes. Como se mencionó anteriormente, este paso ayuda a reducir la complejidad computacional y aumentar la precisión de la clasificación propuesta del árbol de decisión-BCA-SVM.

Las funciones de seguridad seleccionadas en función del umbral.

El módulo de formación se realiza en base a métodos híbridos BCA-SVM y árboles de decisión. El clasificador BCA-SVM presenta una versión SVM optimizada y logra mejores resultados de clasificación. La Figura 4 ilustra el árbol de detección de intrusos BCA-SVMDT.

El árbol BCA-SVMDT.

La característica sttl elegida por el método de índice Gini se considera el nodo raíz. Se agregaron ramas según el nombre de la característica, el índice de Gini, las muestras, el valor, la medida de cercanía (c) y el nombre de la clase. Este módulo se realiza en el modelo de aprendizaje local de acuerdo con los siguientes pasos:

Seleccione las funciones del núcleo SVM (función de base radial) con el parámetro de regulación C y el parámetro del núcleo σ. Estos parámetros se eligen de acuerdo con los resultados de la validación.

Entrene al clasificador BCA-SVM para encontrar la función de decisión f(x).

Clasifique los datos de entrenamiento en clase normal o clase de ataque.

Almacene la predicción de clasificación en el nuevo objetivo.

Entrene el árbol de decisiones con datos de entrenamiento y un nuevo objetivo.

Reemplace la clase con el BCA-SVM cuando la medida de cercanía (c) sea inferior a 0,5.

Salva el árbol.

El paso de aprendizaje de BCA-SVM se resume en la figura 5.

Diagrama de flujo del clasificador BCA-SVM.

En la siguiente sección, detallamos los experimentos y la evaluación del modelo BCA-SVMDT propuesto.

En esta sección, el sistema de detección de intrusos BCA-SVMDT propuesto se evalúa utilizando el conjunto de datos UNSW-NB 15. Este conjunto de datos fue creado por el Cyber Range Lab del Australian Centre for Cyber Security (ACCS)37. Como se mencionó en la sección "Sistema de detección de intrusos basado en BCA-SVMDT", el conjunto de datos se compone de 42 características. En nuestra investigación, solo se utilizan 15 características relevantes que son más significativas.

La fase de entrenamiento tiene como objetivo construir dos clases: normal o ataque. La naturaleza del ataque está fuera del alcance de esta investigación. Para el entrenamiento, el modelo propuesto utilizó 120.890 registros. Para la fase de prueba se cubren 16.607 registros. La experimentación se lleva a cabo en Python 3.8 ejecutándose en una computadora con una CPU Core i7 y 8 GB de RAM.

La evaluación se realiza utilizando cuatro métricas: la exactitud, la precisión, la recuperación y la puntuación F. Estas métricas son importantes para comparar el IDS propuesto y algunos modelos tradicionales de Machine Learning (ML). Las métricas de evaluación se calculan en función de los siguientes valores:

TP (True Positives) denota el número de intrusiones detectadas correctamente.

TN (True Negatives) denota el número de estados de red normales detectados correctamente (sin intrusiones).

FP (Falsos Positivos) denota el número de estados normales detectados como intrusiones.

FN (Falsos Negativos) denota el número de intrusiones detectadas como estados normales.

La precisión refleja la tasa de predicciones correctas. Se calcula a través de la Ec. (3).

La precisión representa la tasa de detecciones correctas pertenecientes a la clase correcta. Se representa mediante la Ec. (4).

La recuperación representa el número de detecciones correctas dividido por todos los casos de intrusión en el conjunto de datos. La ecuación 5 muestra la fórmula de recuperación.

La métrica de puntuación F equilibra la precisión y la recuperación. Está descrito por la Ec. (6).

La Tabla 2 ilustra los resultados de los experimentos en la fase de prueba. La precisión promedio es de aproximadamente 98.5%.

El modelo propuesto también se evalúa de acuerdo con la Curva Operativa del Receptor (ROC). La curva ROC da una idea sobre el rendimiento del modelo BCA-SVMDT y la distancia entre las dos clases: normal y ataque. La curva ROC está definida por la ecuación. 7.

donde TPR es la tasa de verdaderos positivos y FPR es la tasa de falsos positivos. El valor TPR es igual al valor Recall. La curva ROC se dibuja en la Fig. 6. En la Fig. 6, el modelo de predicción es preciso en el Área bajo la curva (AUC) más alta, que es de aproximadamente 0,98.

La curva de funcionamiento del receptor del modelo BCA-SVMDT.

Los modelos tradicionales basados en métodos de aprendizaje automático como SVM, k-Nearest Neighbors (k-NN), Logistic Regression (LR) y Naïve Bayes (NB) se aplican al mismo conjunto de datos para evaluar en profundidad los beneficios del modelo propuesto. . La Figura 7 ilustra la comparación entre el BCA-SVMDT propuesto y los otros métodos de ML según las métricas de exactitud, precisión, recuperación y puntuación F. Los resultados demuestran que el método BCA-SVMDT para la detección de intrusos logra el mejor rendimiento.

Resultados de la comparación entre el modelo BCA-SVMDT y los modelos ML tradicionales.

El modelo IDS propuesto disminuye la complejidad computacional utilizando las funciones de seguridad clasificadas para el enfoque de selección. Por lo tanto, se mejoran el tiempo de procesamiento y el sobreajuste.

Proteger las redes de intrusiones y ataques es un gran desafío para el ciberespacio. En este documento, se presenta un intento de proporcionar un IDS preciso basado en un enfoque híbrido. Se propone un sistema inteligente novedoso llamado BCA-SVMDT compuesto por un árbol de decisión y un clasificador de máquina de vector de soporte equilibrado que evita la comunicación para optimizar la fase de entrenamiento. En el módulo de preprocesamiento, los datos se reescalan y codifican. El método del índice Gini se realiza para calcular la impureza de las características de seguridad. Nuestro modelo alcanzó una alta precisión de aproximadamente el 98,5 %, una precisión de aproximadamente el 96,7 %, una recuperación de aproximadamente el 96,4 % y una puntuación F de aproximadamente el 96,5 %. Además, este documento será una clave sólida para predecir la naturaleza de los ataques en trabajos futuros. Se requiere una mejora del modelo IDS agregando un paso de filtrado para mejorar la predicción y respaldar la clasificación de cinco clases, incluido el estado normal y los tipos de ataques.

Los conjuntos de datos generados y/o analizados durante el estudio actual están disponibles en el repositorio de Kaggle, https://www.kaggle.com/datasets/dhoogla/unswnb15.

Wang, G. Estudio comparativo sobre diferentes redes neuronales para la predicción de la situación de seguridad de la red. Seguro priv. 4(1), 138. https://doi.org/10.1002/spy2.138 (2021).

Artículo CAS Google Académico

Hesselman, C. et al. Una internet responsable para aumentar la confianza en el mundo digital. J. Red. sist. Administrar 28, 882–922. https://doi.org/10.1007/s10922-020-09564-7 (2020).

Artículo Google Académico

Bhuyan, MH, Bhattacharyya, DK & Kalita, JK Detección de anomalías en la red: métodos, sistemas y herramientas. Común IEEE. sobrev. Tutor. 16(1), 303–336. https://doi.org/10.1109/SURV.2013.052213.00046 (2014).

Artículo Google Académico

Tapiador, JE, Orfila, A., Ribagorda, A. & Ramos, B. Ataques de recuperación de claves en KIDS, un sistema de detección de anomalías con claves. Trans. IEEE. Computación segura confiable. 12(3), 312–325. https://doi.org/10.1109/TDSC.2013.39 (2015).

Artículo Google Académico

Buczak, AL & Guven, E. Una encuesta sobre métodos de aprendizaje automático y minería de datos para la detección de intrusos en la seguridad cibernética. Común IEEE. sobrev. Tutor. 18(2), 1153–1176. https://doi.org/10.1109/COMST.2015.2494502 (2016).

Artículo Google Académico

Mishra, P., Varadharajan, V., Tupakula, U. & Pilli, ES Una investigación y análisis detallados del uso de técnicas de aprendizaje automático para la detección de intrusos. Común IEEE. sobrev. Tutor. 21(1), 686–728. https://doi.org/10.1109/COMST.2018.2847722 (2019).

Artículo Google Académico

Lopez-Martin, M., Carro, B. & Sanchez-Esguevillas, A. Aplicación del aprendizaje por refuerzo profundo a la detección de intrusiones en problemas supervisados. Sistema experto aplicación 141, 112963. https://doi.org/10.1016/j.eswa.2019.112963 (2020).

Artículo Google Académico

Wang, W., Liu, J., Pitsilis, G. y Zhang, X. Abstracción de datos masivos para la detección de intrusiones ligeras en redes informáticas. información ciencia 433–434, 417–430. https://doi.org/10.1016/j.ins.2016.10.023 (2018).

Artículo MathSciNet ADS Google Académico

Él, J. y Zheng, S.-H. Modelo de detección de intrusos con máquinas de vectores de soporte gemelas. J. Universidad Jiaotong de Shanghái. ciencia 19, 448–454. https://doi.org/10.1007/s12204-014-1524-4 (2014).

Artículo Google Académico

Lin, S., Ying, K., Lee, C. & Lee, Z. Un algoritmo inteligente con selección de características y reglas de decisión aplicadas a la detección de intrusiones anómalas. aplicación Cómputo suave. 12(10), 3285–3290. https://doi.org/10.1016/j.asoc.2012.05.004 (2012).

Artículo Google Académico

Shang, W., Li, L., Wan, M. y Zeng, P. Algoritmo de detección de intrusos en comunicaciones industriales basado en SVM mejorado de clase única. 2015 Congreso Mundial sobre Seguridad de Sistemas de Control Industrial (WCICSS), Londres, 21–25, (2015). https://doi.org/10.1109/WCICSS.2015.7420317

Khreich, W., Khosravifar, B., Hamou-Lhadj, A. & Talhi, C. Un sistema de detección de anomalías basado en características de N-grama variable y SVM de una clase. información suave Tecnología 91, 186–197. https://doi.org/10.1016/j.infsof.2017.07.009 (2017).

Artículo Google Académico

Álvarez, J., Szabo, C. & Falkner, K. Detección de anomalías de rendimiento adaptativo en sistemas distribuidos utilizando SVM en línea. Trans. IEEE. Computación segura confiable. 17(5), 928–941. https://doi.org/10.1109/TDSC.2018.2821693 (2020).

Artículo Google Académico

Teng, S., Wu, N., Zhu, H., Teng, L. y Zhang, W. Detección de intrusiones colaborativa y adaptativa basada en SVM-DT. IEEE/CAA J. Automatica Sínica 5(1), 108–118. https://doi.org/10.1109/JAS.2017.7510730 (2018).

Artículo Google Académico

Hu, W., Gao, J., Wang, Y., Wu, O. y Maybank, S. Métodos parametrizados basados en adaboost en línea para la detección dinámica de intrusiones en redes distribuidas. Transacción IEEE. cibernético 44(1), 66–82. https://doi.org/10.1109/TCYB.2013.2247592 (2014).

Artículo Google Académico

Aburomman, AA & Ibne Reaz, MB Un nuevo método de conjunto SVM-kNN-PSO para el sistema de detección de intrusos. aplicación Cómputo suave. 38, 360–372. https://doi.org/10.1016/j.asoc.2015.10.011 (2016).

Artículo Google Académico

Wu, Y., Lee, W., Xu, Z. & Ni, M. Modelo de detección de intrusos robusto y a gran escala que combina una red de creencias profundas mejorada con SVM ponderado por funciones. Acceso IEEE 8, 98600–98611. https://doi.org/10.1109/ACCESS.2020.2994947 (2020).

Artículo Google Académico

Anil, S. y Remya, R. Un método híbrido basado en un algoritmo genético, un mapa de características autoorganizado y una máquina de vectores de soporte para una mejor detección de anomalías en la red. 2013 Cuarta Conferencia Internacional sobre Tecnologías de Computación, Comunicaciones y Redes (ICCCNT), Tiruchengode, India, 1–5, (2013). https://doi.org/10.1109/ICCCNT.2013.6726604

Yi, Y., Wu, J. & Xu, W. SVM incremental basado en un conjunto reservado para la detección de intrusos en la red. Sistema experto aplicación 38(6), 7698–7707. https://doi.org/10.1016/j.eswa.2010.12.141 (2011).

Artículo Google Académico

Chitrakar, R. & Huang, C. Selección de vectores de soporte candidatos en SVM incremental para la detección de intrusos en la red. computar Seguro 45, 231–241. https://doi.org/10.1016/j.cose.2014.06.006 (2014).

Artículo Google Académico

Sumaiya Thaseen, I. & Aswani Kumar, C. Modelo de detección de intrusos que utiliza la fusión de selección de características de chi-cuadrado y SVM multiclase. Universidad J. King Saud. computar Informar. ciencia 29(4), 462–472. https://doi.org/10.1016/j.jksuci.2015.12.004 (2017).

Artículo Google Académico

Kuang, F. et al. Una SVM novedosa que combina el análisis de componentes principales del núcleo y la optimización mejorada de enjambres de partículas caóticas para la detección de intrusiones. Cómputo suave. 19, 1187–1199. https://doi.org/10.1007/s00500-014-1332-7 (2015).

Artículo MATEMÁTICAS Google Académico

Jaber, AN & Rehman, SU Sistema de detección de intrusos basado en FCM–SVM para entornos de computación en la nube. Cómputo de clúster. 23, 3221–3231. https://doi.org/10.1007/s10586-020-03082-6 (2020).

Artículo Google Académico

Safaldin, M., Otair, M. & Abualigah, L. Optimizador de lobo gris binario mejorado y SVM para el sistema de detección de intrusos en redes de sensores inalámbricos. J. Inteligencia ambiental. Cómputo Humano. 12, 1559-1576. https://doi.org/10.1007/s12652-020-02228-z (2021).

Artículo Google Académico

Cheng, C., Bao, L., Bao, C. Detección de intrusos en la red con algoritmo bat para la sincronización de selección de características y máquinas de vectores de soporte. En: Cheng, L., Liu, Q., Ronzhin, A. (eds) Advances in Neural Networks – ISNN 2016. ISNN 2016. Lecture Notes in Computer Science(), vol 9719. (Springer, Cham, 2016) https: //doi.org/10.1007/978-3-319-40663-3_46

Gauthama Raman, M., Somu, N., Kirthivasan, K., Liscano, R. y Shankar Sriram, V. Un sistema de detección de intrusos eficiente basado en un algoritmo genético hipergráfico para la optimización de parámetros y la selección de características en la máquina de vectores de soporte. Sistema basado en conocimientos. 134, 1–12. https://doi.org/10.1016/j.knosys.2017.07.005 (2017).

Artículo Google Académico

Kalita, DJ, Singh, VP, Kumar, V. Optimización de hiperparámetros de SVM mediante múltiples PSO para la detección de intrusos. Shukla, R., Agrawal, J., Sharma, S., Chaudhari, N., Shukla, K. (eds) Redes sociales e inteligencia computacional. Lecture Notes in Networks and Systems, 100. (Springer, Singapur, 2020). https://doi.org/10.1007/978-981-15-2071-6_19

Li, L., Zhang, S., Zhang, Y., Chang, L. y Gu, T. El modelo de detección de intrusos basado en una colonia de abejas multiartificial paralela y una máquina de vectores de soporte. 2019 Undécima Conferencia Internacional sobre Inteligencia Computacional Avanzada (ICACI), Guilin, China, 308–313, (2019). https://doi.org/10.1109/ICACI.2019.8778482

Mehmod, T. y Rais, HBM Optimización de colonias de hormigas y selección de características para la detección de intrusos. Soh, P., Woo, W., Sulaiman, H., Othman, M., Saat, M. (eds) Avances en aprendizaje automático y procesamiento de señales. Apuntes de clase en ingeniería eléctrica, 387, (Springer, Cham, 2016). https://doi.org/10.1007/978-3-319-32213-1_27

Acharya, N. & Singh, S. Un método de selección de características basado en IWD para el sistema de detección de intrusos. Cómputo suave. 22, 4407–4416. https://doi.org/10.1007/s00500-017-2635-2 (2018).

Artículo Google Académico

Li, J., Wang, H. y Yan, B. Aplicación del algoritmo de murciélago saltador de rana barajada adaptable a la velocidad en la detección de intrusiones ICS. 2017 29.a Conferencia China de Control y Decisión (CCDC), Chongqing, 3630–3635, (2017). https://doi.org/10.1109/CCDC.2017.7979135

Bostani, H. & Sheikhan, M. Híbrido de algoritmo binario de búsqueda gravitacional e información mutua para la selección de características en sistemas de detección de intrusos. Suave. computar 21, 2307–2324. https://doi.org/10.1007/s00500-015-1942-8 (2017).

Artículo Google Académico

Kabir, E., Hu, J., Wang, H. y Zhuo, G. Una nueva técnica estadística para los sistemas de detección de intrusos. futuro genero computar sist. 79, 303–318. https://doi.org/10.1016/j.future.2017.01.029 (2018).

Artículo Google Académico

Saleh, AI, Talaat, FM & Labib, LM Un sistema híbrido de detección de intrusos (HIDS) basado en k-vecinos más cercanos priorizados y clasificadores SVM optimizados. Artefacto Intel. Rev. 51, 403–443. https://doi.org/10.1007/s10462-017-9567-1 (2019).

Artículo Google Académico

Nskh, P., Varma, MN y Naik, RR Principio del sistema de detección de intrusos basado en el análisis de componentes utilizando una máquina de vectores de soporte. Conferencia internacional IEEE de 2016 sobre tendencias recientes en electrónica, tecnología de la información y la comunicación (RTEICT), Bangalore, India, 1344–1350, (2016). https://doi.org/10.1109/RTEICT.2016.7808050

Wang, H., Xiao, Y. y Long, Y. Investigación del algoritmo de detección de intrusos basado en SVM paralelo en chispa. 2017 7th IEEE International Conference on Electronics Information and Emergency Communication (ICEIEC), Macau, China, 153–156, (2017) https://doi.org/10.1109/ICEIEC.2017.8076533

Khraisat, A. et al. Encuesta de sistemas de detección de intrusos: técnicas, conjuntos de datos y desafíos. Cybersecur 2, 20. https://doi.org/10.1186/s42400-019-0038-7 (2019).

Artículo Google Académico

Meng, W., Tischhauser, EW, Wang, Q., Wang, Y. & Han, J. Cuando la detección de intrusos se encuentra con la tecnología blockchain: una revisión. Acceso IEEE 6, 10179–10188. https://doi.org/10.1109/ACCESS.2018.2799854 (2018).

Artículo Google Académico

Rajagopal, S., Hareesha, KS, Kundapur, PP Análisis de relevancia de características y reducción de características de UNSW NB-15 usando redes neuronales en MAMLS. Pati, B., Panigrahi, C., Buyya, R., Li, KC. (eds) computación avanzada e ingeniería inteligente. Avances en sistemas inteligentes y computación, 1082. (Springer, Singapur, 2020). https://doi.org/10.1007/978-981-15-1081-6_27

Test, E., Zigic, L. y Kecman, V. Clasificación de características utilizando el índice de Gini, relaciones de dispersión y SVM RFE no lineal. Actas de 2013 de IEEE Southeastcon, Jacksonville, FL, EE. UU., 1–5, (2013). https://doi.org/10.1109/SECON.2013.6567380

Descargar referencias

El autor está muy agradecido a todo el personal asociado en cualquier capacidad que contribuyó al propósito de esta investigación.

El autor quisiera agradecer al Decanato de Investigación Científica de la Universidad de Majmaah por apoyar este trabajo bajo el número de proyecto R-2023-412.

Departamento de Ingeniería de la Información, Universidad de Florencia, Florencia, Italia

Abdullah Al-Saleh

Departamento de Ingeniería Informática, Facultad de Informática y Ciencias de la Información, Universidad de Majmaah, Majmaah, Arabia Saudita

Abdullah Al-Saleh

También puede buscar este autor en PubMed Google Scholar

El autor ha escrito este artículo.

Correspondencia a Abdullah Al-Saleh.

El autor declara que no hay conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Al-Saleh, A. Un método de árbol de decisión de máquina de vector de soporte equilibrado que evita la comunicación para sistemas inteligentes de detección de intrusos. Informe científico 13, 9083 (2023). https://doi.org/10.1038/s41598-023-36304-z

Descargar cita

Recibido: 07 Octubre 2022

Aceptado: 31 de mayo de 2023

Publicado: 05 junio 2023

DOI: https://doi.org/10.1038/s41598-023-36304-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

Noticias