viernes, 14 de marzo de 2008

Clase 1:

Hoy veremos principales gráficos a utilizar en un análisis exploratorio para el caso de variables cuantitativas.

  • Tallo y Hoja (Stem and Leaf)
  • Diagrama de Puntos (Point Plot)
  • Gráfico de Caja (Box-Plot)
  • Tablas de Frecuencia e Histograma (Histogram)
  • Gráfico de Series de tiempo (Time sequence Plot)
  • Gráfico de Probabilidades (Probability Plot)
  • Q-Qplot

Diagrama de Tallo y Hoja

No puedo comenzar hablando del gráfico de Tallo y Hoja sin referirme a su creador John Wilder Tukey.

Este Ingenioso Químico y Matemático dio su aporte a la estadística con varias de las gráficas más usadas en el análisis de datos exploratorio.

Sus principales contribuciones fueron:


  • La introducción de las modernas técnicas para estimar el espectro de las series temporales. En 1965, en un artículo conjunto con J. W. Cooley, publicado en la revista Mathematics of Computation, introdujo el algoritmo de la transformada rápida de Fourier (FFT), fundamental para crear el procesamiento digital de datos.

  • Fundó el Análisis Exploratorio de Datos o EDA (Exploratory Data Analysis), una nueva aproximación a la estadística que usa fuertemente un conjunto de técnicas basadas en el uso de gráficos. Su libro Exploratory Data Analysis (1977) es el clásico sobre este tema. EDA es una filosofía básicamente gráfica de exploración de datos estadísticos. Destacan los gráficos "Box-and-Whisker Plot" (Diagrama de caja y bigotes) , el "Stem-and-Leaf Diagram" (Diagrama de tallo y hojas), los “Radigramas” (rootograms) y los Diagramas de ajuste.
Entonces Continuando...

El Diagrama de Tallo y Hoja, a pesar de no ser un gráfico definitivo para la presentación de datos, es fácil y rápido para realizar a mano, con el se puede dar una mirada no pulida de los datos.

Que podemos concluir al ver este gráfico???

  1. El valor característico de la distribución (Promedio, moda, etc)
  2. La forma general de la distribución (simetría, asimetría a la derecha, asimetría a la izquierda)

  3. Grado de dispersión respecto del valor característico
  4. Outlier (Observaciones individuales que se escapan del patrón general de los datos)

  5. Huecos(hoyos) en los datos

  6. Cantidad de peaks

Como construirlo??

En un gráfico de tallo y hoja cada valor de datos es partido en "un tallo" "y una hoja". "La hoja" es por lo general el último dígito del número y los otros dígitos a la izquierda "de la hoja" forman "el tallo". Por ejemplo, el número 136 sería partido como:
TALLO: 13
HOJA: 6

  1. Puede ordenar los datos de menor a mayor, esto ayudara a la organización de los datos (Opcional)
  2. Separe cada número en un tallo y una hoja.

  3. Agrupe los números con los mismos tallos. Ponga los tallos en una lista en orden creciente.
Veamos un Ejemplo con los siguientes 15 datos:

35, 36, 38, 40, 42, 42, 44, 45, 45, 47, 48, 49, 50, 50, 50


Algunos software como R, SPSS o MINITAB pueden separar el Tallo en una parte inferior(hojas desde el cero al 4) y otra superior (hojas desde el 5 al 9)


Este gráfico también puede ser usado para comparar dos grupos de datos, trazando hojas al lado izquierdo y derecho del tallo.

Además facilita el calculo de cuantiles(percentiles, cuartiles, quintiles, etc etc).

Su comando en R es:

>X<-c(35, 36, 38, 40, 42, 42, 44, 45, 45, 47, 48, 49, 50, 50, 50)
>stem(X)

The decimal point is 1 digit(s) to the right of the |

3 | 568
4 | 0224
4 | 55789
5 | 000

> stem(X,scale=0.5)

The decimal point is 1 digit(s) to the right of the |

3 | 568
4 | 022455789
5 | 000

Diagrama de caja (Box Plot)

Otra de las contribuciones de Tukey es el Box-Plot, que muestra una medida de centralidad (Mediana), una medida de dispersión (Rango intercuartilico RIC), y la presencia de posibles outlier. Además es posible observar la simetría o asimetría de la distribución.
Este gráfico básicamente muestra lo que Tukey llamo los 5 números resumen. (Mínimo, Cuartil1(Q1), Cuartil2 (Q2), Cuartil3(Q3) y Máximo).

En su construcción original los bigotes (Whisker) se construyen como Q1-1.5RIC y Q3+1.5RIC, donde RIC=Q3-Q2.

Cualquier observación fuera de los bigotes será una observación atípica (outliers). Algunos software además marcan lo que llaman observaciones extremas a aquellas que sobrepasan los siguientes limites Q1-3RIC y Q3+3RIC.

Es de vital apoyo para un histograma cuando no queda muy clara la asimetría