Deep Learning en Gmail: un avance para combatir archivos adjuntos maliciosos

Lorena Fernández Publicado el 02 de marzo, 2020 • 19:00

Este año, Gmail destaca por un importante avance a la hora de proteger a sus usuarios en su día a día utilizando el correo. Se trata de la implementación de algoritmos de Deep Learning orientados a la detección de archivos maliciosos. El objetivo es evitar, en la medida de lo posible, que todo archivo malicioso pueda ser accesible por la potencial víctima: el propio usuario de Gmail. Te comentamos los detalles.

Nuestro día a día se caracteriza por el uso constante del correo electrónico. Ya sea con fines personales o bien, laborales. Una costumbre es el intercambio de adjuntos, que pueden ser archivos como planillas de cálculo, documentos de texto, PDF y otros. Sin embargo, los archivos adjuntos representan un gran riesgo pues por esta vía, millones de usuarios pueden infectarse con malware, por ejemplo. O en casos peores, ser víctimas de ransomware que deja a la persona sin acceso a sus archivos en el ordenador. A no ser que pague el ransom, pero esto no te garantiza que puedas recuperar los archivos.

Puede acontecer de todo. Y es por esto que Gmail, el cliente de correo electrónico de Google, está trabajando mucho para detectar y prevenir que archivos sospechosos puedan infectar a los usuarios. Uno de sus principales aliados es el Deep Learning. Hasta el momento, la implementación del Deep Learning ha hecho que se detecte un gran número de archivos adjuntos sospechosos.

Los archivos de Office: los más peligrosos

Un dato interesante y a la vez preocupante, es que la mayoría de estos provienen de la suite de Microsoft Office. Especialmente, Word y Excel. Incluso, los documentos de formato PDF no tienen tanto protagonismo actualmente como los de Microsoft.

Esto es así, principalmente por el uso de macros. Las macros son un conjunto de instrucciones que tienen como propósito realizar tareas de manera más rápida y ágil. Uno de los enfoques que tiene el uso de macros, especialmente en Excel, es la automatización de tareas repetitivas dentro de la hoja de cálculo. Así, uno ahorra mucho tiempo y entrega las tareas a tiempo. Se lo considera como uno de los pioneros en la optimización de procesos. En otras palabras, es como un programa que se inserta en los archivos y al ejecutar esa macro, realiza determinadas tareas. Puede ser una macro bien simple o bastante compleja.

Sin embargo, las macros se caracterizan por ser lo suficientemente vulnerables como para que puedan elaborarse macros con código malicioso para llevar acabo inserción de malware, infección para que el ordenador forme parte de una o más botnets, etc. Aun así, existen otras vulnerabilidades de los archivos Microsoft que pueden ser explotadas y llevar a cabo ataques incluso muy sofisticados.

La detección de archivos maliciosos de Office es más eficaz

De acuerdo a lo reportado por Elie Bursztein, uno de los líderes de la división de seguridad y anti-abuso de Google, ha informado que la capacidad de detectar documentos maliciosos de Office ha aumentado en un 10%. Este número representa un avance enorme, considerando la gran cantidad de archivos con los que lidia a diario vía Gmail. Los avances de este cliente de correo electrónico estrella fueron presentados en el marco de la RSA Conference el 24 de febrero pasado.

En una semana, se verifican más de 300.000 millones de adjuntos presentes en todos los mensajes de correo electrónico. En suma, no es tan sencillo como aparenta el hecho de diferenciar entre un archivo malicioso y uno legítimo. Para un usuario común, esto puede ser muy difícil. Más aún cuando existen miles de millones de variantes de archivos maliciosos que pueden ser detectados a diario, y no hay forma de descartar que seguirán apareciendo más día tras día.

El gigante de las búsquedas nos cuenta que en un 63%, los documentos bloqueados por tener algo sospechoso, son distintos en cuanto a los patrones detectados y reconocidos el día anterior. Es ahí en donde Deep Learning entra en acción para poder dar un gran apoyo a una tarea que muchas veces parece imposible: combatir a los archivos maliciosos en la medida que estos van evolucionando.

¿Qué es Deep Learning?

Deep Learning (Aprendizaje Profundo) es una función de inteligencia artificial que imita el funcionamiento del cerebro humano al procesar datos y crear patrones para su uso en la toma de decisiones. El aprendizaje profundo es un subconjunto de Machine Learning (Aprendizaje Automático) en Inteligencia Artificial que tiene redes capaces de aprender sin supervisión a partir de datos no estructurados o sin etiquetar. También se lo conoce como aprendizaje neuronal profundo o red neuronal profunda.

Deep Learning ha evolucionado muchísimo desde sus inicios. Los tiempos que corren se caracterizan por una cantidad abrumadora de datos provenientes de fuentes de todo tipo. El ser humano no es capaz de analizar y procesar tanta cantidad de datos en poco tiempo. Es por eso que Deep Learning imita y maximiza lo que puede hacer el cerebro humano para cumplir con objetivos tan importantes como los que ha propuesto Google: bloquear eficazmente archivos maliciosos.

Diferenciando conceptos: Deep Learning y Machine Learning

Sin embargo, Deep Learning y Machine Learning es un par de conceptos que se confunden muy frecuentemente, aunque estos sean mencionados una y otra vez. Es importante realizar la distinción desde ya. Machine Learning es una de las técnicas que proviene de la Inteligencia Artificial para el procesamiento del harto-conocido Big Data. Consiste en un algoritmo que se adapta por sí sólo y mejora su capacidad de análisis de manera autónoma. Además, mejora sus patrones en base a la experiencia y los datos que se le van pasando.

Por otro lado, Deep Learning es como un subproceso de Machine Learning. Se vale de redes neuronales artificiales que cuentan con un nivel jerárquico, para que sea posible llevar a cabo los procesos de Machine Learning. Las redes neuronales artificiales son construidas inspirándose en el cerebro humano. Este último se compone de «nodos» entrelazados de una manera que parece una telaraña. Los programas «viejos» de análisis de datos realizan los procesos de manera lineal. Por el lado de los sistemas no-lineales, es decir, que funcionan en base a Deep Learning, procesan los datos de manera no-lineal. Como hemos comentado anteriormente, es como si maximizasen la capacidad que tiene el cerebro humano para analizar, procesar y tomar decisiones en una escala mucho mayor.