Medidas de dispersión o variabilidad
Además de conocer la tendencia central de un conjunto de datos es necesario saber qué tan diferentes son entre sí, es decir, es preciso determinar su variabilidad o dispersión. Esto es un elemento vital en el estudio de capacidad de un proceso. En seguida veremos cuatro formas de medir la variabilidad.
La desviación estándar muestral es la medida más usual de variabilidad e indica qué tan esparcidos están los datos con respecto a la media; se denota con la letra
S y se calcula mediante la siguiente expresión:
donde x1, x2,..., xn son las observaciones numéricas de la muestra, n su tamaño y x es la media muestral. Como se puede apreciar, S mide la distancia que en “promedio” hay entre los datos y la media; por ello, entre más grande sea el valor de S habrá mayor variabilidad en los datos. La desviación estándar es expresada en las mismas unidades de medición (gramos, milímetros, etc.) que los datos. Además, S no muestra la magnitud de los datos, sólo refleja lo retirado que están los datos de la media y, al igual que ésta, es afectada por datos atípicos.
Desviación estándar poblacional o del proceso, σ
Si para calcular la desviación estándar se emplean todos los elementos de la población o proceso, entonces se obtiene la desviación estándar poblacional y se denota con la letra griega sigma (σ). Como se comentó antes, es posible considerar a la población como las mediciones de toda la producción de las últimas semanas, o si las mediciones se toman por muestras, entonces una buena idea es obtener los parámetros poblacionales (μ y σ) con todas las mediciones realizadas en las últimas semanas, siempre y cuando éstas no sean pocas; de 120 a 150 mediciones en adelante es una buena cantidad.
Por otra parte, el cuadrado de la desviación estándar, S2, conocido como varianza muestral, es muy importante para propósitos de inferencia estadística. Y en forma equivalente σ2 es la varianza (o variancia) poblacional. Otra medida de dispersión es el rango o recorrido, R, que es igual a la diferencia entre el dato mayor y el dato menor de un conjunto de datos. El rango mide la amplitud de la variación de un grupo de datos, y también es independiente de la magnitud de los datos;
por ejemplo, sean los dos conjuntos de datos:
A = {10, 12, 14} y B = {159, 161, 163}
entonces se observa que la magnitud de los datos es diferente, y eso es reflejado por la media, que es de 12 y 161, respectivamente. Pero en cuanto a la variabilidad, los datos de ambos conjuntos están dispersos de la misma manera, como lo indica la desviación estándar que es igual a 2 en ambos casos, y el rango que es de 4 para los dos conjuntos. El coeficiente de variación, CV, es una medida de variación que es relativa a la magnitud de los datos, ya que es igual a la magnitud relativa de la desviación estándar en comparación con la media de los datos, es decir:
El CV es útil para comparar la variación de dos o más variables que están medidas en diferentes escalas o unidades de medición (por ejemplo, metro frente a centímetro o metro frente a kilogramo). Este coeficiente suele interpretarse como una medición en términos porcentuales de la variación de una variable. Por ejemplo, en el caso de los conjuntos de datos A y B que se acaban de presentar en la definición de rango, se tiene que sus correspondientes CV son:
respectivamente, por lo que la variabilidad en los términos relativos del CV para el conjunto A es de 16.66%, mientras que para el conjunto B es sólo de 1.242%. En el caso del grosor de los discos, tenemos que S = 0.027, S2 = 0.0007, R = 1.25 − 1.11 = 0.14, y CV = 2.29%. La interpretación del rango es muy directa, ya que indica la amplitud máxima de la dispersión; así, 0.14 mm es la discrepancia máxima que existió entre los grosores de los discos en la muestra.
Por lo general, la interpretación de la desviación estándar se hace en combinación con la media, como lo veremos en seguida, y su interpretación en forma individual se realiza en forma comparativa con respecto a la desviación estándar de otras líneas de producción o lotes. Es necesario tomar en cuenta, en caso de hacer estas comparaciones, que lo que se observa en una muestra es variable, y por lo general pequeñas diferencias muestrales no implican diferencias entre procesos o lotes.
Por último, CV = 2.29% indica que la variación del grosor es de 2.29%, lo cual se puede
considerar relativamente bajo.
Relación entre X y S (interpretación de la desviación estándar)
Una forma de apreciar claramente el significado de la desviación estándar como medida de dispersión en torno a la media, es a través de la relación entre la media y la desviación estándar, la cual está dada por la desigualdad de Chebyshev y la regla empírica. Dos hechos particulares que afirma la desigualdad de Chebyshev,1 es que entre X − 2S y X + 2S están por lo menos 75% de los datos de la muestra, y que entre X ± 3S están por lo menos 89% de éstos
.
En cuanto a la regla empírica se afirma que en muchos de los datos que surgen en la práctica se ha observado por la experiencia que:
• Entre X − S y X+ S está 68% de los datos de la muestra.
• Entre X − 2S y X + 2S está 95%.
• Entre X − 3S y X + 3S está 99.7%.
Todos los intervalos anteriores son válidos sólo para los datos muestrales y no necesariamente para toda la población o proceso. Sin embargo, si los intervalos se calculan con la media y la desviación estándar del proceso o población, entonces serán válidos para toda la población. Por lo tanto, en la medida que se tengan muestras aleatorias grandes y representativas, los intervalos anteriores podrán dar una idea aproximada de lo que pasa en el proceso.
Lo que afirma el teorema de Chebyshev se aplica para cualquier tipo de datos, independientemente de su comportamiento o distribución. Mientras que la regla empírica, como su nombre lo dice, se obtuvo por medio de la observación empírica, y es válida para muchos de los casos que se dan en la práctica, sobre todo si los datos tienen un comportamiento con cierto grado de similitud a una campana o a la distribución normal. De cualquier manera, ambos casos ilustran muy bien cómo la desviación estándar mide la variabilidad en torno a la media. Al aplicar la regla empírica a los datos del grosor de los discos, se tiene que un alto porcentaje (cercano a 99%) de las mediciones del grosor del disco varía entre 1.098 y 1.260 mm, como se deriva del siguiente cálculo:
1.179 − 3(0.027) = 1.098; 1.179 + 3(0.027) = 1.260
Al comparar estos límites de variación con las especificaciones (EI = 1.10 y ES = 1.30), se aprecia que 1.098 está por abajo de la especificación inferior, lo cual refleja la baja capacidad del proceso de inyección para cumplir con especificaciones.
Límites reales o naturales
Los límites reales o naturales de un proceso indican los puntos entre los cuales varíala salida de un proceso y, por lo general, se obtienen de la siguiente manera: Límite real inferior (LRI) = μ − 3σ y Límite real superior (LRS) = μ + 3σ El cálculo de estos límites está inspirado en la regla empírica, que a su vez coincide con la propiedad de la distribución normal (véase capítulo 3). En un estudio de capacidad, estos límites reales se comparan con las especificaciones para la característica de calidad. Por ejemplo, si las especificaciones para una característica de calidad son que ésta debe tener dimensiones de 800 ± 5; luego, la especificación inferior es EI = 795, y la superior es ES = 805. Si además se sabe que la media y la desviación estándar de tal característica de calidad son μ = 800.6 y
σ = 1.2, respectivamente, entonces los límites reales son:
LRI = 800.6 − 3(1.2) = 797.0 y LRS = 800.6 + 3(1.2) = 804.2
Por lo tanto, se espera que esta característica de calidad varíe de 797.0 a 804.2, con una media de 800.6. Al comparar esto con las especificaciones se aprecia que los límites reales caen dentro de las mismas, entonces se concluye que el proceso es capaz de cumplir con tales especificaciones.