Cloudflare anuncia que tuvo un problema durante horas y afectó a muchos usuarios
Cloudflare, el gigante de seguridad en Internet, ha anunciado un problema que ha afectado durante horas a muchos clientes. Concretamente, asegura que ha perdido el 55% de los registros enviados durante tres horas y media. Esto ocurrió hace un par de semanas, el 14 de noviembre de 2024. Básicamente, esos registros permiten monitorear el tráfico web y así poder analizar su página, investigar posibles incidentes de seguridad, resolver problemas, etc.
Hay que tener en cuenta que estos registros se generan de forma masiva. Cloudflare es capaz de gestionar más de 50 billones de registros cada día y una parte de esos registros, sobre 4,5 billones, se envían a los clientes. El problema que ha habido es que, durante tres horas y media, esos registros, al menos el 55%, se han perdido.
Cloudflare pierde registros durante unas horas
Ha ocurrido debido a un error en el servicio logpush. Esto lo utiliza para recopilar registros en diferentes puntos finales y enviarlos a servicios de almacenamiento externos, como son Amazon S3, Microsoft Azure, Google Cloud, etc. Aquellos clientes que utilizan el servicio de Cloudflare Logs, tuvieron problemas durante ese tiempo.
Según indican, ese error ha sido una configuración incorrecta en Logfwdr, que es un componente esencial en el registro de Cloudflare, encargado de reenviar esos registros de evento a los sistemas correspondientes. Emitía una configuración en blanco y esto indicaba erróneamente al sistema que no había registros que enviar y, automáticamente, se descartaban.
Además, el Logfwdr está diseñado con un mecanismo de seguridad que reenvíe los registros en caso de recibir una configuración en blanco o no válida. De esta forma, se evita la pérdida de esos registros. Sin embargo, ese sistema colapsó rápidamente. Al recibir una enorme cantidad de solicitudes, ese volumen de registró sobrepasó por mucho su capacidad y obligó a reiniciarse.
Esto fue lo que provocó también que el tiempo de recuperación aumentara, ya que el sistema tuvo que reiniciarse. Provocó una mayor pérdida de registros, hasta ese total calculado del 55%, durante unas tres horas y media.
Aprendizaje del error
Como suele ocurrir con una incidencia de este tipo, las plataformas toman nota del error para que no vuelva a pasar. Eso es lo que han hecho desde Cloudflare, según indican. Han implementado diferentes medidas para que esto no vuelva a ocurrir. Por ejemplo, un nuevo sistema dedicado a la detección y alerta cuando aparece una configuración incorrecta. De esta forma, notifican de inmediato a los equipos y así corregir el problema.
También han realizado cambios para que esos picos de volúmenes no afecten, en caso de que tengan que gestionar muchos registros en poco tiempo. Con esto, evitan interrupciones del servicio que puedan comprometer el buen funcionamiento y perder información que pueda ser valiosa para los clientes.
Además, van a incluir diferentes pruebas de sobrecarga como parte de su rutina, con el objetivo de estar preparados para una hipotética petición de envío masiva de registros. Con esto, podrán manejar mejor complicaciones de este tipo que puedan surgir.
En definitiva, Cloudflare ha tenido un problema hace unos días y han perdido algo más de la mitad de los registros durante tres horas y media. Ya han tomado medidas para intentar que esto no vuelva a ocurrir.