Los trucos de los gigantes de internet para que sus servicios nunca se caigan

Google creó la filosofía Site Realiability Engineering que otros gigantes adoptaron

NTS Solutions

12 de mayo de 2016 21:13h

Seguro que recuerdas la adorable ballena que antes nadaba por Twitter cuando la plataforma se caía o el robot averiado con el que te desquiciaste la última vez que entraste en la red social y fallaba. También te habrás desesperado en alguna que otra ocasión cuando Facebook te ha avisado de que algo iba mal y estaba intentando arreglarlo.

Sin embargo, ¿se te viene a la mente alguna ocasión en la que Google o sus servicios te hayan dejado tirado? Quizá alguna de las caídas de Gmail, pero siempre son de pocas horas. Por lo demás, estabilidad casi absoluta. Y no pienses que se debe solo a que tienes mala memoria: tanto el buscador como el resto de herramientas del gigante estuvieron disponibles el 99,97 % del tiempo en 2015. Desde hace algunos años, el gigante de Mountain View es un ejemplo a seguir también en su sistema para evitar las caídas del servicio.

El auge de la filosofía SRE

Site Realiability Engineering (algo así como Ingeniería de Fiabilidad de un Sitio) es el poco atractivo nombre que acuñó Google hace una década para referirse a la filosofía con la que consiguen que sus servicios siempre estén disponibles pese a que algunos, como el propio Gmail, cuenten con más de 1.000 millones de usuarios mensuales. Aunque la denominación no sea demasiado atractiva, otras empresas tecnológicas también la han adoptado.

En el caso del gigante de Mountain View, la filosofía parte de una premisa: no dejar que personal especializado en gestionar los servicios de internet lleve los servicios de internet, sino pedir a los programadores esta tarea. De esta forma, los propios genios del 'software' serán los que construyan herramientas para que su trabajo se realice de forma casi automática.

Aunque lo de lograr que una plataforma se mantenga 'online' pueda no sonar precisamente a innovación, el propio vicepresidente de Operaciones de Google, Benjamin Sloss, reivindica que en realidad se trata de la característica fundamental de cualquier productocaracterística fundamental de cualquier producto. Así lo defiende en 'Site Realibility Engineering', un libro que acaba de publicarse y que recoge la experiencia de Google en este campo.

Una de las claves de su enfoque es lo que se conoce como DevOps: mezclar a los ingenieros de operaciones (los conservadores) y los de desarrollo (los innovadores) en los equipos de trabajo SRE, manteniendo el equilibrio entre unos y otros. Además, se intenta que ningún equipo dedique más del 50 % de su tiempo a tareas 'manuales' que no estén relacionadas con la programación.

Google ha creado incluso unas estrictas reglas para seleccionar al personal que va a encargarse de estas labores: se cuida de que la mitad de ellos tengan un conocimiento profundo de UNIX y de los protocolos de red.

Por otra parte, la multinacional no se fija una meta del 100 % de disponibilidad, sino de un 99,999 %, para dejar un pequeñísimo margen a posibles cortes necesarios para realizar mejoras sin que el usuario lo perciba. Al fin y al cabo, la probabilidad de que nuestro portátil se estropee o perdamos la conexión wifi es mucho mayor.

Hasta tal punto ha influido la filosofía SRE de Google en otras compañías que ya hay quien apuesta porque, en una época en la que la escalabilidad de una 'startup' es fundamental para su supervivencia, los 'site realibility engineers' lleguen a estar tan valorados como los 'data scientists'engineers' lleguen a estar tan valorados como los 'data scientists'. Compañías como Dropbox, Airbnb, Facebook, Twitter o NetflixAirbnb Facebook Twitter Netflix son algunas de las que reclaman a estos expertos, esenciales para que la posible catástrofe de que el servicio se caiga no llegue a tener lugar.

Hace unos días, Uber celebró un evento para explicar su estrategia SRE, en la que incluso participó una experta del equipo de Google. Una de las charlas del encuentro se centró precisamente en el hipercrecimiento y en cómo la compañía está poniendo un especial cuidado en la confiabilidad a medida que crece. Eso sí, su tamaño sigue siendo muy distinto al del gigante de Mountain View: se estima que tiene 8 millones de usuarios.

Pocos ingenieros para muchos usuarios: ¿cómo se mantiene WhatsApp?

Más de 1.000 millonarios de personas ya utilizan WhatsApp. Lo más sorprendente es que el servicio de mensajería instantánea lo ha conseguido sin apenas personal. Cuando Facebook compró la plataforma en 2014, solo 35 ingenieros trabajaban en ella. En la actualidad no son muchos más: rondan la cincuentena.

Aunque desde WhatsApp no suelen dar demasiados detalles sobre el trabajo de sus ingenieros, hace unos meses uno de los responsables de su 'software' dio algunas pistas sobre los trucos que utilizan para que la plataforma nunca se caiga sin tener por qué dejar de actualizarla o mejorarla. El empleo del lenguaje de programación ErlangErlang, especialmente orientado a la concurrencia (la ejecución de múltiples tareas simultáneas) y que además permite que los programadores trabajen a gran velocidad, o la utilización del sistema operativo FreeBSD son algunos de ellos.

Sin dar demasiados detalles, el programador también destacó que la infraestructura de WhatsApp utiliza un enfoque mínimo, de forma que se resuelvan rápidamente los problemas que necesitan ser resueltos.

Otro de los puntos fuertes de la compañía es que los trabajadores están concentrados exclusivamente en su trabajo. No se distraen con actividades, con otras tecnologías ni con reuniones, ya que apenas se celebran en esta empresa.

Confiar en la competencia, el secreto de Netflix

Las caídas de Netflix también han dado algún que otro susto a sus usuarios en los últimos tiempos. El servicio de series y películas en 'streaming', que ya supera los 80 millones de usuarios, se enfrenta ya a la competencia que supone Prime Video, la alternativa de Amazonla alternativa de Amazon. Sin embargo, la compañía ha decido recurrir a la nube del gigante de Jeff Bezos para ahorrarse problemas.

Las búsquedas, la personalización, la lógica de negocio, el procesamiento de datos que permiten que disfrutemos del contenido cuando pulsamos 'play' y los 100 servicios diferentes que componen su aplicación en 'streaming' se albergan ahora en Amazon Web Services.

Netflix no quiere que su plataforma esté inactiva en ningún momento, y ha tomado medidas preventivas por si Amazon falla de repente. El sistema en la nube está construido de tal manera que si el servicio del gigante del comercio eléctrico tiene problemas en una región, todo el tráfico se redirigirá a aquellas zonas donde los clientes están disfrutando adecuadamente del servicio.

Si la nube de Amazon colapsara en algún momento, Netflix sería capaz de recuperarse en cuestión de horas gracias a su novedoso sistema de 'backups'. De hecho, esta plataforma va a gastarse unos 800 millones de dólares (700 millones de euros) en tecnología y desarrollo, incluyendo los servicios en la nube, una cifra bastante más abultada que los 651 millones de dólares (571 millones de euros) del año pasado. Más vale invertir para que todo vaya bien antes que aguantar las quejas de los millones de usuarios enfurecidos si no pueden ver sus capítulos de 'Daredevil'.

------------------------

Las imágenes de este artículo son propiedad, por orden de aparición, de Pixabay, Sam Azgor y Wikimedia Commons

Sobre este blog

Aplicaciones, cloud computing, parques móviles (MDM) y todas las soluciones informáticas que necesita una gran empresa para incrementar la productividad de sus empleados y optimizar sus procesos de negocio. La firma española NTS, líder en consultoría tecnológica, te pone al día de las últimas tendencias en el sector corporativo.

Etiquetas