UCV

UCV
UCV

miércoles, 12 de junio de 2019

Contraste de Hipótesis de una Media

El Contraste de Hipótesis es una técnica estadística, que trata de comprobar  los resultados de una Suposición, Afirmación, Postulado o Enunciado que realicemos mediante una oración gramatical, conjetura o propuesta, de gran importancia, que sirva para el proyecto, investigación, experimento o estudio, en cualquier área.


Ejemplo de Hipótesis:

a.- El Administrador de un Hospital afirma que desea estudiar, la duración media de pacientes internados es menor a cinco días.

b.- Una Empresa espera que por termino medio un caucho dure 600 días, en condiciones normales.

c.- Un fabricante supone que su producto tenga un contenido promedio de 120 grs.

d.- Un fabricante  produce baterías, cuya duración debe ser menor a 2 años.

e.- Se supone que una lata de atún,  tiene un costo promedio de 10 Bs.

f.- En cada partido de fútbol, el amigo Pepito nos afirma que el mete 2 a 3 goles.

g.- Andrew afirma que en un partido de béisbol, de cada cuatro turnos al bate el da 3 hit.

h.- Diego supone que para captar mas clientes debe realizarse 5 comerciales diarios en tv.

i.- Augusto en el área de Odontología, me comenta que el número promedio de pacientes que atiende en verano es de 60.

Hay tres conceptos que debemos mencionar, ya que se utilizan en la elaboración de los contrastes de hipótesis:

Parámetro: es una constante asociada a una distribución probabilista, ejemplo en la Distribución Normal los parámetros son u y σ.


Estimador: es un estadístico que toma valores cercanos al verdadero valor del parámetro, ejemplo la media aritmética y la desviación estándar o típica (σ).

Estadístico: Es una variable aleatoria en función de las observaciones muestrales.

Otra definición importante que conviene aclarar, es la considerar como "muestra grandes"  aquella cuyo valor de "n" sean mayores e iguales a treinta (30); para menores de treinta (30) se consideran " muestras pequeñas".

Al tomar una muestra y determinar sus estadísticos, se debe inferir  o estimar los parámetros del grupo a estudiar, del cuál procede, lógicamente el valor de estos estadísticos no será exactamente el valor de los parámetros, estos se encontrarán afectados por las llamadas fluctuaciones de la muestra. Sin embargo, siempre los métodos estadísticos irán encaminados a predecir  con un alto grado de exactitud  los parámetros del grupo a estudiar, en función de los estadísticos tomados de la muestra.

El grado de exactitud es el llamado Nivel de Significación.

Se expresa en general por su error típico, cuya significación es la misma que la desviación típica, este nivel representa la probabilidad de rechazar una hipótesis



Cuando se use una muestra de tamaño grande (30 o más), la distribución de resultados muestrales se aproximara a la distribución normal ( figura anterior), llamada Curva Normal o de Gauss, es decir, se expresa que existe una probabilidad del 68,2% que el valor del parámetro se encuentra entre los limites determinados por la constante estadística calculada y mas o menos su error típico (σ); también se puede expresar del 95,8% que se encuentre la constante estadística y mas o menos 2 veces su error típico.
Estos limites son de  fundamental importancia para la significación muestral, así, que suponiendo extraemos, de una población una muestra aleatoria simple y calculamos su promedio y su error típico. La pegunta será Cómo podemos inferir la precisión de este resultado muestral en particular?

Para ello se debe determinar un intervalo de la estimación muestral, entonces podemos con bastante confianza afirmar que (X -σ< X < X + σ) será un intervalo tal, que en dos tercios  de los casos resultará correcto asumir que el valor verdadero de la media cae dentro de ese intervalo. En forma similar, (X +- σ) nos dara un intervalo para que la suposición sea correcta en el 95,8% de las veces .

Ejemplo: El dueño de un negocio de ventas de cerveza, desea saber si la edad promedio de las personas que entran a su local es de 20 años. Si eso es verdad se piensa realizar una remodelación acorde al nicho de mercado existente, para hacerlo mas juvenil, atractivo y que mejore las ganancias.

Para ello se realiza un muestreo aleatorio de 40 personas,dando un promedio de la muestra de 22 años y una desviación típica de 3,74 años.

Ahora realizaremos un Contraste de Hipótesis de Media

Paso 1: Determinar la Hipótesis Nula (Ho) y la Hipótesis Alternativa (H1)

Ho: La edad promedio de los clientes que entran al negocio es igual a 20 años

Ho = 20

H1: La edad promedio de los clientes que entran al negocio es diferente  a 20 años

H1: =/20

Paso 2: Determinar el Nivel de Significación

Este nivel representa la probabilidad de rechazar una hipótesis nula verdadera

Sus niveles serán de α = 0,1 α= 0,05

¿Qué significa esos niveles de donde se los sacan?

Estos niveles son los más frecuentes y utilizados, cuando decimos un α = 0,1  significa que en porcentaje estamos diciendo que tenemos un 90% de confianza, y del 0,05 decimos que es del 95% de confianza.

Con estos niveles nos ubicamos en la tabla de la normal y buscamos el valor asociado a Z




Si seleccionamos α=0,1 esto implica en porcentaje 10%, entonces la diferencia de  10% a 100% es 90%, este valor le convertimos en numero y nos da 0,90, luego buscamos este valor en la tabla de la distribución normal, ahí tenemos que como la curva es simétrica  la mitad es 0,45, al ubicar este valor en la tabla nos da que el valor de Z es 1,64, tal como lo señala en roja el cuadro anterior.

Si selecciono el 0,05 de nivel de significación, Cuál seria el valor en la tabla ?

La respuesta es 1,96

Hay una forma fácil de obtener estos valores en el paquete computacional de excel que incorpora windows,  Colocaremos la siguiente función:     @Distr.norm.estand.inv(90%+0,1/2)

y el resultado será de 1,64

Se recomienda probar con el nivel de significación del 0,05


Paso 3: Calcular los Intervalos que implican ese nivel de significación

Nivel de Confianza = 90%

Z = 1,64

Intervalo de confianza [ -1,64 < x < 1,64]

Paso 4: Calcular el Estadístico de la Prueba de Media

Datos

μ = 20

x = 22

σ = 3,74

n= 40


Al calcular el Z nos da un valor de 3,38212

Paso 5: El estadístico cae en la región de aceptación



el valor -1,64 y 1,64 se encuentra donde esta señalizado -Zo y Zo, dentro de esos dos valores es la zona de aceptación de la hipótesis, como observamos el Estadístico Z = 3,38212 esta en la zona negra de la gráfica o zona critica, este valor es mayor el 1,64


Paso 6: Aceptamos o rechazamos Ho?


Se RECHAZA la Hipótesis Nula  y se ACEPTA la Hipótesis Alternativa

En excel es muy fácil de elaborar

Alguna  pregunta escriban a mi correo: zavafree@gmail.com, con gusto, aclararemos las dudas.




viernes, 7 de junio de 2019

Contraste de Wilcoxon para muestras apareadas

El contraste de Wilcoxon es la técnica no paramétrica paralela a el de la T de Student para muestras apareadas . Igualmente dispondríamos de n parejas de valores (xi,yi) que podemos considerar como una variable medida en cada sujeto en dos momentos diferentes.

  Para todo i = 1,2,....,n,        i-ésima oservación = (Xi,Yi)----> diferencia = Di =Xi - Yi

El test de Wilcoxon, al igual que los otros contrastes no paramétricos puede realizarse siempre que lo sea su homólogo paramétrico, con el inconveniente de que este último detecta diferencias significativas en un 95% de casos que el de la T de Student.
Sin embargo a veces las hipótesis necesarias para el test paramétrico (normalidad de las diferencias apareadas, di) no se verifican y es estrictamente necesario realizar el contraste que presentamos aquí. Un caso muy claro de no normalidad es cuando los datos pertenecen a una escala ordinal.
El procedimiento consiste en:

1.
Ordenar las cantidades ! Di ! de menor a mayor y obtener sus rangos.
2.
Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia (no consideramos las cantidades di=0) y calculamos su suma,                                                                             T   sera:  Si Di >0             si los signos positivos de Di son menos frecuentes                                                                                                                                                                                                         Si  Di< 0              si los signos negativos de Di son menos frecuentes

Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T, la siguiente expresión de T' es más sencilla de usar   T = m(n + 1) -T


donde m es el número de rangos con signo de di de menor frecuencia.

3.
Si T ó T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon, se rechaza la hipótesis nula del contraste                                                                           


     H0 : No hay diferencia entre observaciones apareadas                                                                                                                                                                                                                       H1: Si la Hay



 Aproximación normal en el contraste de Wilcoxon

Si n>= 100 la distribución de T admite una aproximación normal

                                                        T = N(ut,st)

donde 

la Esperanza matemática es:     ut = n(n+1)/4

La Varianza  es                         st =n(n+1)(2n+1)/24


por lo que el estadístico 

Z = T -ut/(st)^1/2      la cual es una aproximación a la Normal (0,1)


da como criterio el rechazar       H0   si  |Z| >= 1- alfa/2