En las últimas dos décadas, el tráfico de purple se ha multiplicado por más de 100. En consecuencia, detectar los ciberataques más preocupantes de la actualidad, como suplantación de identidad, descargas ocultasy Secuestro de datos, a partir de ese enorme flujo de tráfico se ha vuelto mucho más difícil. En esencia, el conocimiento de la situación de la purple y la seguridad se han convertido en problemas de huge information, especialmente en redes grandes.
Durante años, el análisis de seguridad en redes grandes se ha basado en el uso de datos de flujo de tráfico de purple, como los de Cisco. Flujo de purple. Netflow fue diseñado para muestrear y conservar los atributos más importantes de las conversaciones de purple entre TCP/IP terminales en grandes redes sin tener que recopilar, almacenar y analizar todas datos de purple El SEI lanzó su herramienta para analizar registros de flujo de purple, Seda (Sistema de Conocimiento a Nivel de Web), hace 18 años. Sin embargo, el creciente volumen de tráfico de purple y, por lo tanto, el volumen de datos de flujo relacionados, ha superado la capacidad de SiLK. Para cerrar esta brecha, el SEI lanzó mothra a principios de este año.
Esta publicación del weblog de SEI le presentará a Mothra y resumirá nuestra investigación reciente en las mejoras de Mothra diseñadas para manejar entornos a gran escala. Esta publicación también describe la investigación destinada a demostrar la eficacia de Mothra a “escala de la nube” en el entorno GovCloud de Amazon Net Companies (AWS).
Gestión de la avalancha de datos de flujo de purple
A medida que ha crecido el tráfico de purple basic, también han crecido los registros de flujo de purple, como Cisco NetFlow. La detección de los ataques de purple más graves requiere inspección profunda de paquetes (DPI) en estos flujos de purple. El proceso DPI inspecciona los datos que atraviesan una purple informática y puede alertar, bloquear, redirigir o registrar estos datos según sea necesario. Sin embargo, mientras DPI extrae más información sobre los componentes críticos para la seguridad de un flujo, también genera un registro al menos cinco veces más grande que un registro de flujo que no es DPI.
La herramienta SEI Otro caudalímetro más (YAF) puede realizar DPI, entre otras capacidades. YAF es el componente de recopilación de datos del SEI Conjunto de seguridad CERT NetSA. Transforma los paquetes en flujos de purple y exporta los flujos a Exportación de información de flujo de protocolo de Web (IPFIX) procesos de recopilación o un formato de archivo basado en IPFIX para su procesamiento por herramientas posteriores, en specific, la herramienta SiLK de SEI. SiLK, sin embargo, no fue diseñado para analizar los datos de DPI ni para procesar el volumen de datos de flujo generado por las organizaciones a la escala de los proveedores de servicios de Web.
Sentimos que teníamos un problema de huge information en nuestras manos, y en 2017 un patrocinador del gobierno le pidió a SEI que hiciera que YAF trabajara con una herramienta de análisis de huge information. En respuesta, creamos el mothra plataforma de análisis para habilitar flujos de trabajo analíticos escalables que se extienden más allá de las limitaciones de los registros de flujo convencionales y la capacidad de nuestras herramientas existentes para procesarlos. mothra es una colección de bibliotecas de código abierto para trabajar con datos de flujo de purple (como Netflow de Cisco) en el chispa apache motor de análisis de datos a gran escala.
Mothra une las herramientas previamente independientes del Conjunto de seguridad de conocimiento de la situación de la purple (NetSA) del CERT y Chispa – chispear. Otras soluciones de seguridad, como aplicaciones antivirus o sistemas de detección y prevención de intrusos, también pueden exportar datos a Spark. Mothra permite a los analistas acceder a los datos de flujo de la purple junto con estas otras fuentes, todo dentro de un entorno común de análisis de huge information. Con todas estas fuentes de datos disponibles para el análisis, las organizaciones con redes muy grandes pueden lograr resultados más completos. conciencia situacional de la purple.
Al igual que la herramienta de análisis preexistente de SEI, Seda Mothra fue diseñado para analizar registros de flujo de purple, específicamente aquellos producidos por el SEI YAF (Otro caudalímetro más). Mothra transforma la salida de YAF en un formato legible por Apache Spark, y la plataforma Mothra y también
- facilita el almacenamiento masivo y el análisis de datos de ciberseguridad con altos niveles de flexibilidad, rendimiento e interoperabilidad
- cut back el esfuerzo de ingeniería involucrado en el desarrollo, la transición y la puesta en funcionamiento de nuevos análisis
- atiende a todos los grupos principales dentro de la comunidad de seguridad de redes, incluidos los científicos de datos, los encargados de responder a incidentes de primer nivel, los administradores de sistemas y los aficionados
Mothra procesa directamente el formato binario IPFIX, un estándar de la Grupo de Trabajo de Ingeniería de Web (IETF). Los analistas pueden extraer de manera eficiente solo las piezas que desean y luego pueden usar el motor de análisis Spark en los datos IPFIX. Mothra le permite simplemente colocar los datos directamente sin tener que pensar en cómo transformarlos. Estas transformaciones cambian los datos recopilados lo menos posible, preservándolos para futuros análisis.
Los analistas pueden usar Mothra para llevar el poder de programación de Spark a los datos de flujo de purple desde el Conjunto de seguridad NetSA. Los filtros de SiLK permiten consultas limitadas en conjuntos de datos de flujo puro. Mothra y Spark permiten consultas mucho más profundas y flexibles sobre el flujo enriquecido con DPI para encontrar muchos más datos de interés. Por ejemplo, los analistas ahora pueden extraer cualquier tipo de datos que puedan expresar como un programa y pueden realizar extracciones iterativas en las que los datos extraen cambios a lo largo de las iteraciones. También pueden extraer datos que consisten en paquetes más grandes que el número promedio de paquetes dentro del conjunto de criterios coincidentes. Algo que le llevaría muchas secuencias de comandos en SiLK ahora se puede condensar en media página de código.
El análisis de todos esos datos de flujo requiere mucha experiencia en almacenamiento y programación. Mothra permite que las organizaciones con la infraestructura y el private admitan Apache Spark, usen su experiencia y apliquen análisis de DPI a los datos de flujo de purple. Esta información puede ayudarlos a evaluar sus defensas actuales y descubrir brechas de seguridad, especialmente en redes empresariales a nivel de infraestructura.
Creación de prototipos de Mothra a escala de la nube
Habiendo desarrollado Mothra y demostrado que es útil en entornos de purple locales, a continuación nos fijamos en responder las siguientes preguntas:
- ¿Se puede implementar Mothra en un entorno de nube?
- ¿Puede una implementación basada en la nube funcionar con la misma eficacia que Mothra en un entorno native?
- ¿Cuál es la mejor manera de lograr la implementación en la nube para optimizar el rendimiento de Mothra?
Para responder a estas preguntas, investigamos métodos para implementar Mothra y sus componentes de sistema relacionados en el Entorno AWS GovCloud. Nuestro proyecto involucró a varios equipos que colaboraron para abordar el desarrollo de código, la ingeniería de sistemas y las pruebas. Construimos prototipos de capacidad creciente que progresaron hacia el rendimiento del sistema objetivo. Estos prototipos incorporaron miles de millones de registros de flujo por día con el contenido adecuado distribuido a través de los datos y los pusieron a disposición para su análisis en un período de tiempo aceptable.
La Figura 1 muestra uno de los prototipos que desarrollamos, que implementó Mothra para Amazon Elastic Mapa Reducir (EMR) con Spark y respaldado por el Sistema de archivos EMR (EMRFS) con almacenamiento en Amazonas S3. EMRFS es una implementación del Sistema de archivos distribuido Hadoop (HDFS) que utilizan todos los clústeres de Amazon EMR para leer y escribir archivos regulares desde EMR directamente a S3. EMRFS brinda la conveniencia de almacenar datos persistentes en S3 para usar con Hadoop al mismo tiempo que proporciona características como visualización consistente, cifrado de datos y elasticidad.
Al realizar nuestra investigación, determinamos rápidamente que Mothra podía instalarse y operarse fácilmente a velocidades que claramente satisfacían las necesidades del usuario cuando se implementaba en la nube. Sin embargo, el rendimiento de las consultas en el entorno de la nube no fue óptimo. Para abordar ese problema, llevamos a cabo el siguiente trabajo:
- implementamos múltiples diseños de sistemas en el entorno de creación de prototipos híbridos de SEI (en specific, usamos nuestro generador de tráfico Ixia para crear un flujo de datos sintéticos que resultó en un repositorio de datos appreciable dentro de AWS)
- configuraciones modificadas a medida que se examinan los resultados de las pruebas para abordar los problemas observados
- simuladores desarrollados para producir volúmenes de flujo que coincidan con los observados en los sistemas de producción
- ejecutó planes de prueba para evaluar el proceso de ingesta de datos y las operaciones de consulta representativas
- desarrolló un nuevo código para optimizar las operaciones de lectura de datos
- servicios de sistema sintonizados (p. ej., Spark)
Nuestro trabajo confirmó que Mothra podía integrarse con éxito con AWS GovCloud y nos llevó a producir un conjunto de palancas que se pueden usar para ajustar los servicios del sistema a características de datos específicas. Esas palancas incluyen parámetros de lectura de archivos y el tamaño de archivo deseado, que se almacenan en un repositorio del sistema. Para determinar la configuración óptima para operar en el entorno de AWS GovCloud de manera sistemática, generamos varios repositorios de Mothra con diferentes escenarios de archivos y ejecutamos una serie de pruebas utilizando una variedad de configuraciones de parámetros.