La lucha contra el malware es muy compleja, así que todos los enfoques que suman son bienvenido. Tal es el caso de STAMINA, un sorprendente e interesante proyecto desarrollado conjuntamente por Intel y Microsoft, y que propone sacar partido de una tecnología que ha evolucionado mucho los últimos años, y que puede ayudar significativamente en el análisis de muestras en búsqueda de patógenos aún no conocidos y que, por lo tanto, permanecen sin identificar. Esa tecnología es el análisis de imágenes.
El proyecto, cuyo white paper puedes consultar aquí, y cuyo nombre, STAMINA, es en realidad el acrónimo de STAtic Malware-as-Image Network Análisis, es una herramienta basada en deep learning que, de manera muy resumida, convierte muestras de malware en imágenes en escala de grises. A continuación estas imágenes son escaneadas y se cruzan con los los patrones de textura y estructurales específicos de muestras de malware con las que, previamente, se ha entrenado al sistema. Este es el proceso, por pasos:
- El sistema recibe un archivo binario y pasa a convertir en píxeles los bits que lo conforman.
- Una vez creada la cadena de píxeles que representan los bits, se genera con los mismos una imagen bidimensional. El ancho de la misma viene determinado por el tamaño total del archivo resultante.
- Una vez generada la imagen, es reescalada para reducir su tamaño. A este respecto, los responsables del proyecto afirman que pese a la pérdida de resolución el sistema no pierde efectividad, y que esto permite acelerar el tiempo de proceso.
- Con la imagen lista, STAMINA procede a analizarla mediante una red neuronal profunda (Deep Neural Network, DNN).
Cuando hablamos de un DDN, debemos entender que no es sino una red neuronal artificial con múltiples capas de proceso entre la entrada y la salida. Es en este punto dónde se aplica Deep Learning, una evolución de machine learning que mejora los resultados obtenidos al añadir nuevas funciones de análisis de los mismos durante la fase de análisis.
Para las pruebas de STAMINA los investigadores emplearon 2,2 millones de muestras de patógenos. De las mismas, el 60% fue ingerido durante la fase de entrenamiento de la red. Posteriormente se empleó un 20% adicional para validar el funcionamiento de la misma, y cuando ya se había comprobado que funcionaba correctamente, el 20% restante se utilizó para realizar pruebas reales de detección.
Los resultados, según los investigadores, son bastante destacables: STAMINA logró una precisión del 99.07% en la identificación y clasificación de muestras de malware, con una tasa de falsos positivos del 2.58%. Es indudable que el nivel de precisión es muy, muy alto, más aún si tenemos en cuenta que hablamos de un proyecto recién salido del laboratorio y que, por lo tanto, todavía puede evolucionar más al respecto. El dato de los falsos positivos, aún no siendo malo, todavía debería evolucionar algo más, idealmente hasta situarse por debajo del 1%. Algo que, posiblemente, también llegará con la evolución de la DDN en la que se basa el sistema.
La principal limitación de STAMINA, eso sí, viene dada por el tamaño de los archivos. Según los investigadores hay una relación inversamente proporcional entre el tamaño de las muestras y la efectividad del sistema. Es algo comprensible, ya que recordemos: el sistema genera una imagen bidimensional con píxeles a partir de los bits y, a continuación, reducir su tamaño. El problema es que, a mayor tamaño del original, más información se puede perder en el reescalado.
Por lo tanto, y al menos hasta alguna futura evolución del sistema, la clave será emplearlo con archivos pequeños y medianos, dejando el análisis de los de gran tamaño en manos de otras herramientas. Aún así, el recorrido de una herramienta como STAMINA apunta muy alto, y a medida que siga evolucionando el rendimiento de los sistemas y el reescalado de las imágenes pase a ser menos necesario, su fiabilidad puede incrementarse de manera sustancial independientemente del tamaño de los binarios.
La entrada STAMINA: Intel y Microsoft «fotografían» el malware es original de MuySeguridad. Seguridad informática.