Service Level Objectives

Es imposible administrar un servicio correctamente, y mucho menos bien, sin comprender qué comportamientos realmente importan para ese servicio y cómo medir y evaluar esos comportamientos.
1) INDICADORES
1. SLI - Service Level Indicator
  1. Medida cuantitativa cuidadosamente definida de algún aspecto del nivel de servicio que se proporciona
    1. Comunes: Latencia, tasa de error, throughput, disponibilidad
    2. Desde la perspectiva de Sysadmin refleja unicamente la salubridad del sistema, desde la perspectiva SRE estár enfocado en la satisfacción del cliente.
2) OBJETIVOS
1. SLO - Service Level Objetive
  1. Valor objetivo para el nivel de servicio medido con el SLI
    1. Si bien el objetivo debe estar relacionado con la expectativa del cliente, este debe ser coherente con la línea base asociada al servicio (ej: no comprometerse a que un Renault 4 alcance 200Km/h)
3) ACUERDOS
1. SLA - Service Level Agreements
  1. Consecuencia de no cumplir el SLO
    1. Generalmente penalidad monetaria asociada a la facturación del servicio, créditos en Cloud, en otros casos puede ser reputacional (Google Search)
      1. Que no exista SLA, no significa que no sea importante definir losindicadores y objetivos del servicio
    2. Si no hay consecuencia... solo es un SLO
4) COMO DEFINIR QUE MEDICIONES (INDICADORES) SON IMPORTANTES PARA NUESTRO SERVICIO
1. LO PRIMERO ES ENTENDER QUE ESPERA EL USUARIO FINAL DE NUESTRO SISTEMA
2. Definir muchos indicadores reducirá la posibilidad de manejo de los mismo
3. Es vital seleccionar unos pocos indicadores que me permitan conocer el estado del servicio y garantizar una experiencia satisfactoria para el cliente final
4. Categorias generales SLI
  1. User-facig service system
  2. Storage system
  3. Big data system
5. Recolectar Indicadores
  1. Herramientas de monitoreo (ej: Borgmon, Prometheus, analisis periódico de logs, etc..)
  2. Algunos indicadores deberán ser instrumentados del lado de cliente, no es suficiente solo el lado server
  3. Cuidado con la agregación de data recolectada
    1. Evualuar el uso de métodos estadísticos para evitar la distorsión de la información
  4. Estandarizar indicadores
    Annotations:
    - Intervalos de agregación: "Promedio durante 1 minuto" Regiones de agregación: "Todas las tareas en un clúster" Frecuencia con la que se realizan las mediciones: "Cada 10 segundos" Qué solicitudes se incluyen: "HTTP GET desde monitoreo de black-box" Cómo se adquieren los datos: "A través de nuestro monitoreo, medido en el servidor" Latencia de acceso a datos: "Tiempo hasta el último byte"
  5. La medición debe ser lo mas cercana a la experiencia del usuario, pero muchas veces se debe medir el indicador de una forma indirecta ya que no se tiene acceso al punto de control ideal
5) COMO DEFINO QUE OBJETIVOS SON APROPIADOS PARA MI SERVICIO
1. No debemos enfocarnos en que podemos medir, lo relevante para el servicio es aquello que es importante para el usuario final
2. DEFINICIÓN DE LOS OBJETIVOS
  1. Deben ser completamente explicitos sobre como se deben medir y en que condiciones son validos
  2. No se deben pensar para ser cumplidos al 100% permanente, pues puede generar contensión en los ciclos de innovación e implementación y/o implicar soluciones demaciado costosas o mejoras que no sean percibidas por el usuario
    1. Es preferible y necesario establer un Presupuesto de Errores que le brinde maniobrabilidad a la operación y al desarrollo
      1. An error budget is just an SLO for meeting other SLOs
3. CLAVES
  1. No defina un objetivo basado en el desempeño actua
    Annotations:
    - Puede llevar a escenario de mejoras solo con esfuerzos significativos
  2. Mantengalo simple
  3. Evite los absolutos (siempre, nunca, infinitamente)
  4. Tan pocos SLO como sea posible
  5. La perfección puede esperar
    Annotations:
    - Se pueden refinas las definiciones de SLO a medida que conoce el comportamiento del servicio y el entorno
  6. SLO = Palanca
  7. Controle las medidas
  8. Mantenga un margen de seguridad

Next up

Service Level Objectives

Description

Resource summary

Similar

	Created by Andres Mauricio Morales Jimenez about 5 years ago