Los piratas informáticos suelen adaptarse constantemente a los cambios y poder así robar información e infectar los equipos. Es cierto que tenemos muchas herramientas de seguridad con las que podemos protegernos, pero también los ciberdelincuentes buscan la manera de romper esas barreras. En este artículo nos hacemos eco de un nuevo ataque que permite conocer qué está escribiendo una persona durante una videollamada.
Un nuevo ataque sabe qué escribe un usuario en una videollamada
Las videollamadas se han convertido en los últimos meses en una forma de comunicación muy utilizada. La pandemia del Covid-19 ha traído cambios importantes y uno de ellos es el uso de este tipo de servicios tanto por parte de usuarios particulares como también a nivel de empresas y organizaciones.
Ahora los ciberdelincuentes han encontrado un nuevo ataque con el que permiten conocer qué está escribiendo un usuario durante una videollamada. Básicamente lo que logran es aprovechar la transmisión de vídeo para correlacionar los movimientos corporales con las letras y palabras que esa persona está escribiendo.
Este descubrimiento ha sido realizado por investigadores de la Universidad de Texas, en San Antonio, y también en la Universidad de Oklahoma. Indican que no solo podrían atacar en una videollamada normal, sino también en directos de YouTube y otras plataformas similares.
Eso sí, para que esto sea posible indican que es necesario que la cámara pueda grabar parte del cuerpo del usuario. La zona superior donde detectarían movimientos de los brazos y cómo se utilizan para pulsar determinadas teclas.
Indican que este tipo de ataque puede usarse en los diferentes dispositivos que cuentan con una cámara web integrada. No solo funcionaría con un ordenador, sino también con otros muchos equipos como tablets, móviles y similares. Existen riesgos al hacer una videollamada.
El objetivo de un atacante sería registrar las palabras y textos escritos por la víctima. Esto podría poner en riesgo la privacidad, pero incluso también podría llegar a robar las contraseñas que esa persona pone al iniciar sesión en cualquier servicio.
Tres etapas para registrar las pulsaciones de teclas
Los investigadores informan de que para que esto sea posible son necesarias tres etapas. Cada una de ellas tiene su función y el resultado final es obtener qué ha escrito la víctima en su teclado. Vamos a ver en qué consiste cada una de esas fases o etapas.
- Pre procesamiento: en esta etapa se elimina el fondo del vídeo, se convierte a escala de grises y se produce una segmentación de ambos brazos con respecto al rostro de la persona.
- Detección de pulsaciones: esta fase detecta las pulsaciones de teclas, recupera los fotogramas segmentados del brazo, cuantifica los movimientos y calcula dónde han sido las pulsaciones.
- Predicción de palabras: la última etapa es la de predecir las palabras que se han escrito. Detecta las diferentes características de movimientos antes y después de cada pulsación de tecla y a través de un algoritmo basado en diccionario es capaz de predecir las palabras.
Este grupo de investigadores ha realizado diferentes pruebas con varios grupos de personas utilizando plataformas como Zoomo, Hangouts y Skype. Vieron que no para todas las cámaras web el ataque tenía el mismo resultado. También hubo diferencias en la detección de palabras. En este sentido, detectaron con éxito el 91,1% de los nombres de usuario, el 95,6% de las direcciones de correo electrónico y el 66,7% de los sitios web escritos. Sin embargo para las contraseñas no tuvieron tanto éxito: 18,9% del total.