Monitorización real efectiva de tus servidores para una detección temprana de los problemas

Detección temprana
Nuestra política es aplicar una monitorización intensiva del estado interno de los servidores de cara a detectar los problemas lo antes posible.

Solución temprana
Esta detección temprana nos permite ofrecer un servicio superior ya que muchas de las incidencias tienen su origen en problemas pequeños que son fáciles de solucionar, evitando así que se conviertan en caídas de servicio graves que son detectadas por los usuarios del servidor.
Pero, exactamente, ¿qué monitorización realizáis?
La monitorización realizada por nuestros sistemas se centra en tres puntos y que son ampliados con más información en las siguientes secciones:
- Monitorización del estado del servidor: que comprende la comprobación del estado de los servicios y su funcionamiento en general.
- Monitorización de los registros del servidor: que comprende la monitorización en tiempo real de los registros (logs) del servidor en búsqueda de evidencias de fallos, evidencias de problemas de seguridad o evidencias de problemas de configuración.
- Monitorización del sistema de ficheros: que comprende la monitorización en tiempo real de los cambios que se producen en los ficheros del disco, junto con la búsqueda de expresiones en esos ficheros para detectar cambios no autorizados.
Monitorización del estado del servidor
A continuación se muestra una lista con los elementos básicos revisados por los comprobadores incluidos en Core-admin.
Descripción
Asegurar que el hostname configurado es consistente con la configuración del sistema.
Qué soluciona
Muchas aplicaciones no funcionan correctamente si el valor de hostname no está correctamente configurado y sincronizado con la información IP
Descripción
Asegurar que el servidor DNS configurado en el servidor está funcionando correctamente.
Qué soluciona
La mayoría de aplicaciones fallan cuando el servicio DNS no está disponible
Descripción
Asegurar que la swap configurada en el servidor está funcionando y no alcanza niveles críticos que puedan bloquear el sistema
Qué soluciona
Evitar que la cantidad de memoria de trabajo en swap no entre en umbrales críticos. Evitar que la máquina entre en estado de “swapping”.
Descripción
Asegurar que el soporte syncookie está activado en el servidor para mitigar ataques synflood
Qué soluciona
Mitagar o reducir ataques de tipo syncookie.
Descripción
Asegurar que el servicio pop3 local está funcionando (si está instalado). La comprobación tiene soporte para hacer un ring-test completo.
Qué soluciona
Detectar fallos en servicio pop3
Descripción
Asegurar que el servicio de imap está funcionando correctamente (si está instalado).
Qué soluciona
Detectar fallos en servicio imap
Descripción
Asegurar que el servicio SMTP está funcionando correctamente. La comprobación tiene soporte para hacer un ring-test completo.
Qué soluciona
Detectar fallos en servicio smtp
Descripción
Asegurar que apache2 funciona correctamente y que en todos los puertos devuelve código 200 OK.
Qué soluciona
Detectar fallos en servicio apache2
Descripción
Asegurar que el servicio de mysql funciona correctamente y que el límite de conexiones actualmente configurado no alcanza niveles críticos.
Qué Soluciona
Detectar fallos en servicio mysql
Descripción
Trazar y comprobar los cambios de crontab introducidos para determinar si son legítimos o están siendo utilizando para hacer persistencia de exploit/rootkit/hacking
Qué soluciona
Evitar que contenido malicioso sea ejecutado periódicamente
Descripción
Comprobar que el tiempo de arranque es consistente y para detectar reinicios no previstos del sistema.
Qué Soluciona
Detectar cambios en el estado de uptime del sistema
Descripción
Comprobar y asegurar que el directorio temporal del sistema funciona correctamente (permite a los usuarios crear y borrar sus ficheros), que tiene los permisos correctos y que no está lleno.
Qué soluciona
La mayoría de aplicaciones no funcionan correctamente con un /tmp lleno o no operativo. Se trata de evitar este punto o al menos detectarlo.
Descripción
Comprobar y monitorizar el estado de uso de los discos de manera que una alerta se genera en el caso de que los niveles de alerta o crítico son alcanzados.
Qué Soluciona
Detectar llenado de disco para tomar acciones lo antes posible.
Descripción
Asegurar y comprobar que la interfaz loopback está configurada y funcionando
Qué soluciona
Muchas aplicaciones no funcionan correctamente si no se dispone de una interfaz loopback en el sistema. Se pretende detectar y corregir el problema lo antes posible.
Descripción
Comprobar y bloquear aquellas ips que crean demasiadas conexiones en estado “half-opened” para deshabilitar o mitigar los ataques DOS basados en syn-flood.
Qué Soluciona
Tener una primera barrera automática de detección y bloqueo.
Descripción
En caso de tener una tarjeta raid Adaptec/Pmc-Sierra, el comprobador revisa el estado de la controladora, discos, memoria y batería auxiliar.
Qué soluciona
Asegurar funcionamiento del raid
Descripción
En caso de tener una tarjeta raid HP SmartArray, el comprobador revisa el estado de la controladora, discos, memoria y batería auxiliar.
Qué Soluciona
Asegurar funcionamiento del raid.
Descripción
En caso de tener una instalación con raid sofware, el comprobador revisa el estado de la configuración, discos, memoria y batería auxiliar.
Qué soluciona
Asegurar funcionamiento del raid
Descripción
En caso de tener una tarjeta raid Megaraid, el comprobador revisa el estado de la controladora, discos, memoria y batería auxiliar.
Qué Soluciona
Asegurar funcionamiento del raid.
Descripción
Comprobar y trazar uso de cpu de manera general o por procesos particulares.
Qué soluciona
Evitar que procesos averiados o no autorizados utilicen más cpu de la necesaria
Descripción
Comprobar y trazar procesos que comenzaron con una ruta binaria y luego cambiaron a otra diferente. Ataque básico para ocultar procesos.
Qué Soluciona
Detectar procesos renombrados como elemento básico adicional de detección temprana de ataques
Descripción
Comprobar y asegurar que está ejecutando el firewall de la máquina (basado en iptables).
Qué soluciona
Asegurar que el firewall iptables está ejecutando y levantarlo automáticamente si es posible.
Monitorización de los registros del servidor en tiempo real
A continuación se muestra una lista de alguno de los elementos comprobados en los registros del sistema de manera. Esta información es comunicada al centro de soporte para su evaluación y posterior respuesta.
Descripción
Búsqueda de evidencias de cuelgues del kernel (“stack traces”) de manera que se pueda anticipar un reinicio programado o proceder al reemplazo del componente con fallos.
Descripción
Búsqueda de evidencias con “command not found” para descartar problemas de configuración o intentos de ataques.
Descripción
Búsqueda de evidencias de bases de datos con fallos o pendientes de reparar (MySQL, SQLite, PostgreSQL).
Descripción
Búsqueda de evidencias para detectar reinicios o apagados para comprobar si es legítimo.
Descripción
Búsqueda de evidencias de que algún componente del sistema de correo está fallando.
Descripción
Búsqueda de evidencias sobre intentos fallidos de conexión a base de datos que deberían funcionar.
Descripción
Búsqueda de evidencias sobre uso no autorizado de las cuentas de correo para evitar que sean capturadas para el envío de Spam o para realizar operaciones de suplantación.
Descripción
Búsqueda de evidencias y bloqueo de ips cuando se detecta intentos fallidos de conexión (y se determina que son fraudulentas).
Descripción
Búsqueda de evidencias sobre los accesos ssh realizados a los servidores.
Monitorización del sistema de ficheros
A continuación se muestra una lista de alguno de los cambios en el sistema de ficheros que son monitorizados. Esta información es comunicada al centro de soporte para su evaluación y posterior respuesta.
Descripción
El usuario puede configurar otras carpetas a monitorizar o expresiones a buscar cuando se produzcan cambios.
Descripción
Monitorización de los cambios en el directorio de configuración que es utilizado por defecto por los sistemas Linux.
Descripción
Se monitorizan los cambios en los alojamientos buscando expresiones que indiquen que la página ha sido comprometida o contiene código potencialmente peligroso.