jueves, 9 de febrero de 2017

TEMA # 4 - ESTADÍSTICA DESCRIPTIVA


Medidas de forma

Como ya se dijo en la sección anterior, un aspecto relevante en el análisis de un conjunto de datos o una variable es estudiar la forma de su distribución. Por ello, en esta sección se complementa la información de la sección anterior y se presentan las mediciones del sesgo y la curtosis. Éstas parten del hecho de que el tipo de distribución que se da con mayor frecuencia es la forma de campana, con características similares a la distribución normal. Es frecuente que cuando la distribución no es de este tipo, sea la señal de un hecho importante que está ocurriendo en el proceso y que tiene un efecto negativo en la calidad.

Una medida numérica del sesgo o asimetría en la distribución de un conjunto de datos se obtiene a través del sesgo y del sesgo estandarizado (skewness), los cuales están dados por: 
donde n es el tamaño de la muestra, S la desviación estándar y X la media muestral. 
El signo del sesgo indica el lado para el que la cola de la distribución es más larga, ya sea hacia la izquierda (signo −) o hacia la derecha (signo +). Para los datos que siguen una distribución normal, el valor del sesgo estandarizado debe caer dentro de (−2, +2), por lo que si n es grande (n > 100) y el sesgo estandarizado está fuera de tal intervalo, será una evidencia de que la distribución de los datos tiene un sesgo significativamente diferente al de la distribución normal o, en otras palabras, que la distribución de los datos no es normal.

En los datos del ejemplo del grosor del disco, el sesgo = −0.0114 y el sesgo estandarizado = −0.0520, indican una distribución bastante simétrica (como se apreció en el histograma de la figura 2.1). Además, dado el tamaño de la muestra y como el sesgo estandarizado está dentro del intervalo [−2, +2], entonces es una evidencia a favor de que los datos provienen de una distribución normal.
Una medida para determinar qué tan elevada o plana (achatada o picuda) es la distribución de ciertos datos, tomando como referencia la distribución normal, se obtiene a través del estadístico llamado curtosis y del coeficiente de curtosis estandarizado, que están dados por:



donde n es el tamaño de la muestra, S la desviación estándar y X la media muestral. Si el signo de la curtosis es positivo, indica que la curva de la distribución de los datos es más empinada o alta (picuda) en el centro y con colas relativamente largas; ambos aspectos se refieren a la distribución normal. Pero si el signo es negativo, se tendrá una curva más aplanada y con colas más cortas con respecto a normalidad. Para los datos que siguen una distribución normal el valor de la curtosis estandarizada debe estar dentro de (−2, +2), por lo que si n es grande (n > 100) y el estadístico cae fuera de este intervalo, será una evidencia de que la distribución de los datos no es normal.

En los datos del ejemplo 2.1 del grosor del disco, curtosis = 0.173188 y curtosis estandarizado = 0.395245, lo cual indica una distribución muy similar a la distribución normal (como se apreció en el histograma de la figura 2.1). Así, tanto para la curtosis como para el sesgo, hay evidencia a favor de que los datos provienen de una distribución normal.

Cuantiles (percentiles)

Los cuantiles son medidas de localización que dividen un conjunto de datos ordenados encierto número de grupos o partes que contienen la misma cantidad de datos. Por ejemplo, si los datos ordenados se dividen en tres partes, entonces a los correspondientes cuantiles se les conoce como terciles; pero si se divide en cuatro grupos tendremos los cuartiles; en cinco serán los quintiles; si la división es en 10 partes tendremos los deciles y, por último, si la división se hace en 100 grupos se tendrán los percentiles.

De esta manera, los cuantiles de una distribución o de un conjunto de datos son medidas de localización relativa, que ayudan a complementar la descripción de la distribución de una característica de calidad. De manera más formal, sea x1, x2, ..., xn un conjunto de n mediciones ordenadas en forma creciente, se define su percentil p como el valor x tal que el p% de las mediciones es menor o igual a x, y el (100 – p)% mayor o igual.
A manera de ejemplo, a continuación se muestran varios percentiles para los datos del grosor de los discos:

1.0% = 1.11
5.0% = 1.125
10.0% = 1.135
25.0% = 1.17
50.0% = 1.19
75.0% = 1.21
90.0% = 1.23
95.0% = 1.23
99.0% = 1.25

Se ve que el primer decil o percentil 10 es igual a 1.135, eso quiere decir que 10% de las mediciones de la tabla 2.1 son menores o iguales que 1.135. El decil cinco o percentil 50 que corresponde a la mediana es igual a 1.19. Mientras que el percentil 95 es igual a 1.23, lo cual indica que 95% de las mediciones son menores o iguales que 1.23.

Cuartiles

Como vimos antes, al percentil 25 también se le conoce como primer cuartil o cuartil inferior, Ci; mientras que la mediana que es el percentil 50 corresponde al cuartil medio Cm; y el percentil 75 es el cuartil superior, Cs o tercer cuartil. El cálculo de estos estadísticos se realiza mediante cualquier software moderno de estadística o incluso con hojas de cálculo. En el caso de los datos del grosor de los discos Ci = 1.17, Cm = 1.19 y Cs = 1.21. De aquí que 25% de los datos sea menor o igual que 1.17.

No hay comentarios:

Publicar un comentario