domingo, 5 de febrero de 2017

TEMA # 2 - ESTADÍSTICA DESCRIPTIVA 1


Medidas de tendencia central

Con las mediciones de una característica de calidad consiste en conocer la tendencia central de los
datos, es decir, identificar un valor en torno al cual los datos tienden a aglomerarse o concentrarse. Esto permitirá saber si el proceso está centrado; es decir, si la tendencia central de la variable de salida es igual o está muy próxima a un valor nominal deseado. A continuación veremos tres medidas de la tendencia central: la media, la mediana y la moda.

explicaremos en base al siguiente ejemplo:
En un proceso de inyección de plástico una característica de calidad del producto (disco) es su grosor, que debe ser de 1.20 mm con una tolerancia de ±0.10 mm. Así, para considerar que el proceso de inyección fue satisfactorio, el grosor del disco debe estar entre la especificación inferior, EI = 1.10 y la superior, ES = 1.30. En un estudio de capacidad para este proceso es necesario contestar las siguientes interrogantes: ¿qué tipo de discos en cuanto a grosor se están produciendo? ¿El grosor medio es adecuado? ¿La variabilidad del grosor es mucha o poca?

Para contestar estas preguntas, durante una semana se obtuvieron de una línea de producción los 125 datos. El muestreo fue sistemático: cada determinado tiempo se tomaban cinco productos y se medían y al final de la semana se tuvieron los datos referidos. 
A continuación se analizarán estos datos por medio de diferentes estadísticos.



Media muestral

Supongamos que x1, x2, x3,..., xn son las observaciones numéricas de una muestra; entonces, la medida más usual de su tendencia central es proporcionada por la media (o promedio) muestral, que es igual a la media aritmética de todos los datos:
es decir, la media muestral se obtiene sumando todos los datos y el resultado de la suma se divide entre el número de datos (n).
En el ejemplo, la media de los datos de la tabla es X = 1.179 mm, con lo cual, el grosor promedio de los discos de la muestra es de 1.179 mm. Esto no significa que todos o la mayoría de los discos tengan un grosor de 1.179 mm, es más, en el ejemplo, ningún disco tiene tal grosor. En este caso, dado que la media muestral procede de una muestra significativamente grande que abarca el periodo de una semana, entonces hay evidencia de que el proceso está descentrado de forma moderada a la izquierda o hacia un valor inferior, ya que el valor objetivo para el grosor es de 1.20 mm.

Media poblacional o del proceso, μ

Si para calcular la media se utilizan todos los elementos de la población (todos los posibles individuos, especímenes, objetos o medidas de interés sobre los que se hace un estudio), por ejemplo,
el grosor de todos los discos producidos en la última semana o mes, entonces el promedio calculado es la media del proceso (o media poblacional) y se denota con la letra griega μ (mu).

Es importante destacar que la media del proceso μ es igual a cierto valor, aunque no siempre se conoce; mientras que el valor de X se obtiene para cada muestra y es diferente (variable) de una muestra a otra, ya que su valor depende de las piezas que se seleccionan (X es una variable aleatoria). Por lo anterior, el valor que se observa de la media muestral, X , por lo general es diferente a la media del proceso, μ. Luego, es preciso tener cuidado con las afirmaciones basadas en X sobre la media del proceso o población.

En general, lo que se observa en los estadísticos muestrales acerca del comportamiento de los datos es válido para la muestra, y en la medida que ésta sea representativa y grande también tendrá cierto grado de aproximación para todo el proceso; sin embargo, es necesario utilizar técnicas estadísticas para evaluar lo que significan en todo el proceso.

Mediana o percentil 50

Otra medida de tendencia central de un conjunto de datos es la mediana, que es igual al valor que divide a la mitad a los datos cuando son ordenados de menor a mayor. 

Así, para calcular la mediana cuando el número de datos es impar, éstos se ordenan de manera creciente y el que quede en medio de dicho ordenamiento será la mediana. Pero si el número de datos es par, entonces la mediana se calcula dividiendo entre dos la suma de los números que están en el centro del ordenamiento. En el ejemplo, la mediana es 1.18 mm, lo cual significa que 50% de los grosores de los discos de la muestra son menores o iguales a 1.18, y que el otro 50% son mayores o iguales a 1.18.

Moda

Otra forma de medir la tendencia central de un conjunto de datos es mediante la moda, que es igual al dato que se repite más veces. Si varios datos tienen la frecuencia más grande, entonces cada uno de ellos es una moda, y se dice que el conjunto de datos es multimodal.

En el ejemplo de los discos hay una sola moda y es 1.17. Esta medición fue la más frecuente, se repitió 23 veces. De esta forma, en el ejemplo tenemos que la media es 1.179, la mediana 1.18 y la moda 1.17. Debido a que la media es la medida de tendencia central más usual, en ocasiones se comete el error de creer que ésta divide los datos a la mitad o que es el dato más frecuente, es decir, se confunde el concepto de media con el de mediana y moda, respectivamente.
Un aspecto relevante a tomar en cuenta cuando se utiliza la media, es que ésta resulta afectada por datos extremos o atípicos. Por ejemplo, la media y la mediana para los siguientes datos:

1 100, 1 300, 1 000, 1 500, 800, 1 600, 1 100

son X = 1 200 y la mediana = 1 100. Pero si a la lista anterior agregamos un dato atípico (el 7 600), entonces: X = 2 000 y la mediana = 1 200 son muy diferentes entre sí, debido a que 7 600 ha jalado a la media, y ahora ya no es una buena medida de tendencia central porque sólo un dato está por arriba de la media. En este tipo de casos, la mediana no es afectada por el dato atípico, lo cual tampoco ocurre cuando la distribución de los datos es sesgada. Por lo tanto, bajo estas condiciones, la mediana es mejor medida de tendencia central.

De lo anterior se deriva que, para describir la tendencia central de los datos, es imprescindible apoyarse tanto en la media como en la mediana y la moda. Cuando la media es muy diferente a la mediana es señal de que existen datos atípicos o existe un sesgo importante, por lo que será mejor reportar como medida de tendencia central a la mediana e investigar a qué se deben los datos atípicos, ya que en ocasiones reflejan un aspecto importante del proceso.

Las medidas de tendencia central no son insuficientes como criterio de calidad

Suponga que la longitud de una pieza debe estar entre 800 ± 5. Para ver si se cumple con las especificaciones se toma una muestra aleatoria grande y se obtiene que:

X = 801, mediana = 801 y moda = 800

Debido a que estos estadísticos están dentro de las especificaciones, se podría creer que el proceso cumple con éstas. Sin embargo, esto no necesariamente es cierto, ya que en la muestra podría haber datos desde 750 hasta 850 y la media de todos ellos ser 801. Pero también podría ocurrir que el rango de variación de los datos vaya de 797 a 803, con lo que sí se cumpliría con las especificaciones. En otras palabras, las medidas de tendencia central son insuficientes como criterio de calidad, ya que no toman en cuenta qué tan dispersos están los datos, un hecho vital para la calidad.



No hay comentarios:

Publicar un comentario