viernes, 26 de junio de 2009

ESTADÍSTICA

1. Introducción a la estadística moderna

La estadística tiene su origen en dos áreas: la ciencia política y los juegos de azar. Los gobiernos han tenido interés desde la antigüedad en contar personas, sus propiedades y en especial los impuestos que recaudaban o podían recaudar. Los problemas asociados a la descripción, resumen y análisis de los datos de los censos ha dado lugar al desarrollo de métodos que constituyen una de las partes de la estadística que más han sido estudiada, la estadística descriptiva. Aun cuando la estadística descriptiva es muy importante y se emplea ampliamente, la mayoría de la información estadística proviene de observaciones efectuadas a una pequeña proporción del conjunto total.
La estadística inferencial ha desarrollado técnicas que permiten hacer predicciones a partir de datos conocidos o bien obtener información acerca de la población conociendo únicamente algunos representantes de ella. Con los métodos de la estadística inferencial es posible predecir resultados de una elección con base en la opinión previa de algunos datos, estimar la vida de un circuito electrónico, comparar la efectividad de dos dietas para reducir peso, comparar algunos tratamientos psiquiátricos.
Las técnicas de la estadística inferencial tienen su origen en la teoría de los juegos de azar, solo que en la estadística se habla de niño o niña, sanar o morir, funcionar o fallar, si cierto candidato será el próximo presidente municipal. Para analizar este tipo de situaciones necesitaremos de la teoría de la probabilidad, que es el fundamento de la estadística inferencial.
Todos los días se enfrenta a situaciones donde la estadística y la probabilidad juegan un papel importante. Es indispensable contar con conocimientos de estadística y probabilidad para entender la variabilidad y la incertidumbre en una encuesta de intención de voto antes de unas elecciones, en un reporte médico donde se correlacionan cierta enfermedad con ciertos hábitos, o bien, en la capacidad de un lote de artículos donde se analizo una pequeña muestra.
La estadística es más que solo números, es lo que se hace con los números. Después de conocer y haber trabajado la estadística se puede presumir de contar con una herramienta poderosa y sencilla que permita toma decisiones racionales a lo largo del trabajo profesional, se adquiere la habilidad de juzgar críticamente la información estadística que a diario es colectada, procesada y difundida al Publico. Para estudiar la estadística básica, será suficiente con tener conocimientos de aritmética y algebra.

2. Calculo de parámetros

Los datos son colecciones de un numero cualquiera de observaciones relacionadas entre sé. Una colección de datos recibe el nombre de conjunto de datos y se da el nombre de punto observación de datos de una sola observación.
Para que los datos sean útiles se debe organizar las observaciones de manera que se puedan seleccionar las tendencias y llenar a conclusiones lógicas.
Los datos estadísticos son agrupaciones de cualquier número de observaciones relacionadas, para que pueda ser considerado como dato estadístico la información obtenida debe cumplir con dos características que son:
· Que sean compatibles entre si.
· Que tengan alguna relación.
Fundamentalmente existen dos clases de datos:
· Datos consistentes en información cuantitativa.
· Datos consistentes de información cualitativa.

La variable es una característica de los datos que asume distintos valores. La variable aleatoria es aquella que asume diferentes valores a raíz de los resultados de un experimento aleatorio. La variable cuantitativa o escalar se dice que se cumple siempre que los valores que pueda asumir sean resultados de medidas numéricas. La variable cuantitativa discreta es aquella que puede asumir solo ciertos valores esta puede tomar un número limitado de valores en una escala de medidas. La variable aleatoria discreta es la que puede asumir solo un número determinado de valores y que proviene de un experimento aleatorio. La variable cuantitativa continua es la que teóricamente puede tomar cualquier valor en una escala de medidas. La variable cualitativa o nominal esta toma algún concepto o nombre.

2.1 tendencia central (media, mediana y moda)

Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características de las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la población. Los principales métodos utilizados para ubicar el punto central son la media, la mediana y la moda.
La media
Medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones.
La mediana
esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo.
La mediana nos indica el valor que separa los datos en dos fracciones iguales con el cincuenta por ciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie ordenada; mientras que para las muestras con un número par de observaciones se debe promediar los valores de las dos posiciones centrales.

La moda
Esta nos indica el valor que más veces se repite dentro de los datos; es decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien sería la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que se conoce como multimodal.

2.2 dispersión (rango, desviación media, desviación típica, varianza)

Estas medidas permiten dar otra característica de los datos o como se dispersan los datos.
Rango
Se calcula con la diferencia del valor de la observación más alta menos el valor de la observación más baja, es decir: rango= dato mayor – dato menor.
Desviación estándar
Esta es un promedio de las distancias que el conjunto de datos tiene con la media aritmética (promedio)
Varianza
La varianza representa la media aritmética de las desviaciones con respecto a la media que son elevadas al cuadrado. Si atendemos a la colección completa de datos (la población en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atención sólo a una muestra de la población, obtenemos en su lugar la varianza muestral.
Desviación estándar de la población
Al cuadrado de la desviación estándar se le llama la varianza de la poblacion

2.3 de simetria (coeficiente de pearson o de asimetria)

una curva es simetrica si sus dos lados coinciden al doblarla a la mitad. Si una curva no es simetrica entonces es asimetrica.
Se conoce como sesgo al gradi de asimetria de una distribucion, es decir cuanto se aparta de la simetria. Si la curva de frecuencias de una distribucion tiene a la derecha una cola mas larga que a la izquierda, se dice que esta sesgado a la derecha o con sesgo positivi (I); en caso contrario se dice que esta sesgado a la izquierda o con sesgo negativo (II).
Coeficiente de sesgo de pearson
Una medida de asimetría viene dada por la diferencia: mediana-moda, que puede hacerse adimensional dividiéndola por una medida de dispersión tal como la desviación estándar típica.

2.4Medidas de forma

Para poder identificar las medidas de forma es necesario tener un histograma o su equivalente para una distribución continua que describa los datos. Así al prestar atención a las figuras producidas se puede observar la forma de J, la forma de J inversa y la forma de U. estas distribuciones llevan dichos nombres.

4. Introducción a la probabilidad

La definición de probabilidad es la posibilidad de ocurrencia de que algún suceso pueda acontecer o no. Del latín probabilis que quiere decir probable o como verdad.

La probabilidad clásica define la probabilidad de que un evento ocurra, como la razón o proporción de la siguiente manera:

Probabilidad de un evento= número total de resultado donde ocurre el evento / número total de posibles resultados.

5. Distribuciones teóricas

Es frecuentemente utilizada en las aplicaciones estadísticas.
Su propio nombre indica su extendida utilización, justificada por la frecuencia o la normalidad con la que los ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.

5.1 distribución binomial

Llamamos experiencia aleatoria dicotómica a aquella que solo puede tener dos posibles resultados A y A'. Usualmente A recibe el nombre de éxito, además representaremos como p= p(A) y q=1-p=p(A’).
A la función de probabilidad de una variable aleatoria X resultado de contar el número de éxitos al repetir n veces una experiencia aleatoria dicotómica con probabilidad de éxito p la llamamos distribución binomial y la representamos por B (n, p)Para esta distribución se verifica que, la variable X puede tomar los valores:0,1,2,…, ny que la variable toma cada uno de estos valores con probabilidad:p( X = r ) = (nr) pr (1 – p) n-r
5.2 normal
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana.
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a una curva en "forma de campana".
En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal.

5.3 poisson

Cuando de un proceso se conoce el promedio de una relación de una variable discreta por unidad de tiempo, longitud, área, volumen, etc. a este promedio se le llama lambda
Donde:
p(X) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es l.
l = media o promedio de éxitos por unidad de tiempo, área o producto
e = 2.718 (base de logaritmo neperiano o natural)
X = variable que nos denota el número de éxitos que se desea que ocurra.

6. Muestreo

Es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a través de él podemos hacer análisis de situaciones de una empresa o de algún campo de la sociedad.
Error Estándar:
La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la media. De la misma manera, la desviación estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la proporción. La diferencia entre los términos "desviación estándar" y "error de estándar" es que la primera se refiere a los valores originales, mientras que la última está relacionada con valores calculados. Un estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra.
Muestreo simple
Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser lo suficientemente grande para extraer una conclusión.
Muestreo de juicio
Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.
Muestreo Aleatorio
Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada una muestra probabilística son generalmente preferidas por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal.

Muestreo aleatorio simple
Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible.

Muestreo sistemático.
Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado.

Muestreo Estratificado
Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera muestreada mediante muestreo aleatorio simple. El número de elementos seleccionado de cada estrato puede ser proporcional o desproporcional al tamaño del estrato en relación con la población.

Muestreo de conglomerados.
Para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método sistemático. Finalmente, tomar todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple. Esta debilidad puede reducida cuando se incrementa el tamaño de la muestra de área.

7. Teoría de la decisión de hipótesis

Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error.
La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se representa por H0. Rechazar H0 implica aceptar una hipótesis alternativa (H1).
La situación se puede esquematizar:

H0 cierta
H0 falsaH1 cierta
H0 rechazada
Error tipo I (a)
Decisión correcta (*)
H0 no rechazada
Decisión correcta
Error tipo II (b)
Decisión correcta que se busca
a=p(rechazar H0H0(cierta) b=p(aceptar H0H0(falsa) Potencia=1-b=p(rechazar H0H0 falsa)
Detalles a tener en cuenta:
1. a y b están inversamente relacionadas. 2. Sólo pueden disminuirse las dos, aumentando n.
Los pasos necesarios para realizar un contraste relativo a un parámetro q son:
Establecer la hipótesis nula en términos de igualdad
Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del interés del investigador
En el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.
Elegir un nivel de significación: nivel crítico para a
Elegir un estadístico de contraste: estadístico cuya distribución muestral se conozca en H0 y que esté relacionado con q y establecer, en base a dicha distribución, la región crítica: región en la que el estadístico tiene una probabilidad menor que a si H0 fuera cierta y, en consecuencia, si el estadístico cayera en la misma, se rechazaría H0.
Obsérvese que, de esta manera, se está más seguro cuando se rechaza una hipótesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido rechazar. Por otro lado, la decisión se toma en base a la distribución muestral en H0, por eso es necesario que tenga la igualdad.
Calcular el estadístico para una muestra aleatoria y compararlo con la región crítica, o equivalentemente, calcular el "valor p" del estadístico (probabilidad de obtener ese valor, u otro más alejado de la H0, si H0 fuera cierta) y compararlo con a.

8. Teoría dela correlación

El análisis de regresión se refiere a la naturaleza de las relaciones entre variables, mientras que el análisis de correlación tiene que ver con la fuerza o la intensidad de las relaciones. Los ajustes pueden hacer a rectas o curvas, una importante es la regresión a una recta, la cual tiene una ecuación de la siguiente forma: y=mx+b.
Cuando la investigación de las relaciones es limitada solamente a dos variables denominamos esos métodos analíticos como análisis de regresión simple y análisis de correlación simple.
El análisis estadístico de regresión y correlación se fundamenta en los siguientes conceptos:
· El análisis de regresión determina una ecuación de estimación o una formula matemática que relaciona las variables conocidas con las desconocidas.
· El análisis de correlación determina el grado de relación que hay entre las variables.
· El coeficiente muestral de determinación determina el porcentaje con que una variable explica a otra.
· Variable independiente: variable desconocida.
· Variable dependiente: variable desconocida.
· Relación directa: pendiente positiva.
· Relación inversa: pendiente negativa.
· Método de mínimos cuadrados: técnica con que se ajusta una recta mediante un conjunto de puntos, usando distancias verticales de los puntos a la línea recta.
· El valor del coeficiente de correlación r representa una medida de que tanto los valores de x y los de y se determinan mutuamente y su valor siempre varía entre -1 y 1, -1

No hay comentarios:

Publicar un comentario