MODELOS PARAMÉTRICOS Y NO-PARAMÉTRICOS PARA LA INVESTIGACIÓN
MOHAMMAD H. BADII, AMALIA GUILLÉN GAYTÁN & DAVID E. CASTILLO MARTÍNEZ
(SR) = (1/√N)∑[(SRi – m(SRi))/√V(SRi)] I (SR) = (1/√N)∑[(SRi – m(SRi))/√V(SRi)]
= [∑n i (n i -1)/n(n-1)]N
n/n o ) = klog(1+(m/k)
(x) = [1/σ*√2π]*exp[-1/2(x-µ)/σ)2]
(x) = [1/σ*√2π]*exp[-1/2(x-µ)/σ)2]
tirant humanidades Ciudad de México, 2023
f(x)
f(x)
(x -
m
m
)]
P(x)
x
P(x) = n C x (p
P(x) = e(-m
P(x) = e(-m)[mx/x!] eiπ + 1
0 eiπ + 1 = 0 σ σ m * = α
m * = α + β m λ
λ
δ
I
log(
log(
f
f
I
= f(x - 1)[(m/(m+k)] [(x+k-1)/x]
= f
1)[(
/(
+k
[(x+k-1)/x]
= n C
(p(x)q(n - x))
(x)q(n - x))
)[mx/x!]
=
+ β m
= [m/2kcp]*(Vc)
= [m/2kcp]*(Vc) I
δ = [∑n i (n i -1)/n(n-1)]N
n/n o ) = klog(1+(m/k)
Copyright ® 2023
Todos los derechos reservados. Ni la totalidad ni parte de este libro puede reproducirse o transmitirse por ningún procedimiento electrónico o mecánico, incluyendo fotocopia, grabación magnética, o cualquier almacenamiento de información y sistema de recuperación sin permiso escrito de la autora y del editor. En caso de erratas y actualizaciones, la Editorial Tirant Humanidades publicará la pertinente corrección en la página web www.tirant.com.
Este libro será publicado y distribuido internacionalmente en todos los países donde la Editorial Tirant lo Blanch esté presente.
© Mohammad H. Badii, Amalia Guillén Gaytán & David E. Castillo Martínez
© TIRANT HUMANIDADES
DISTRIBUYE: TIRANT HUMANIDADES MÉXICO
Av. Tamaulipas 150, Oficina 502 Hipódromo, Cuauhtémoc, CP 06100, Ciudad de México
Telf: +52 1 55 65502317
infomex@tirant.com
www.tirant.com/mex/ www.tirant.es
ISBN: 978-84-19825-19-3
Si tiene alguna queja o sugerencia, envíenos un mail a: atencioncliente@tirant.com. En caso de no ser atendida su sugerencia, por favor, lea en www.tirant.net/index.php/empresa/politicas-de-empresa nuestro Procedimiento de quejas.
Responsabilidad Social Corporativa: http://www.tirant.net/Docs/RSCTirant.pdf
Índice PRÓLOGO ............................................................................................................ 11 SECCIÓN I Contexto 14 Introducción.......................................................................................................... 16 Bases conceptuales ............................................................................................... 18 Definiciones estadísticas fundamentales ........................................................... 21 ECOEE ......................................................................................................... 43 La noción fundamental en la estadística ........................................................... 46 Modelo de “X2” ..................................................................................................... 48 Caso A. Norte de México: 51 Caso B. Centro de México: ........................................................................ 52 Caso C. Sur de México: .............................................................................. 53 Modelo de “F de Fisher” 54 Modelo de “Bartlett” ............................................................................................ 57 Modelo de “t Student” para 1 muestra (t1) ........................................................ 60 Modelo “Z” ........................................................................................................... 63 Modelo de “t Student” para 2 muestras (t2) 66 Modelo de “Análisis de Varianza” (ANOVA).................................................... 68 Diseños Comunes de ANOVA ........................................................................... 69 Modelo de “Diseño Completamente al Aleatorio” (DCA) 71 Modelo de “Diseño de Bloques Aleatorios” (DBA) ......................................... 75 Conclusiones: .............................................................................................. 78 Modelo de “Diseño de Cuadro Latino” (DCL) ................................................. 79 Las Hipótesis del modelo de DCL: ........................................................... 80 Tratamientos ............................................................................................... 82 Estados (Bloques verticales) ...................................................................... 82 Estación (Bloques horizontales) 83 Modelo de “Análisis de Varianza Anidada” (ANOVA Anidada) .................. 83 Conclusiones: .............................................................................................. 87 Modelo de “Análisis de Covarianza” (ANCOVA) 88 Conclusiones para checar la validez de la operación ............................ 94 Modelo de “Análisis Factorial” (ANOVA Factorial) ........................................ 95
8 Índice SECCIÓN II Introducción.......................................................................................................... 103 Ventajas de los métodos No-Paramétricos .............................................. 104 Desventajas de los métodos No-Paramétricos ........................................ 105 Clasificación de los modelos No-Paramétricos ...................................... 106 Tipos de variables y su uso en la investigación................................................. 106 Modelos No-Paramétricos para la Investigación Cualitativa ......................... 109 A1. La escala nominal 109 A2. La escala ordinal ................................................................................... 109 Modelo estadísticos en la escala “Nominal” ..................................................... 110 Escala Nominal, 1 muestra .................................................................................. 110 Modelo de “Poisson”................................................................................... 110 Modelo de “Binomial” ................................................................................ 112 Modelo de “Ji2 de Pearson” ........................................................................ 116 Escala Nominal, 2 muestras 117 Modelos alternos al Modelo de Ji2 117 Modelo de “Probabilidad Exacta de Fisher y Yates”............................... 118 Modelo de “Prueba X p 2 de Proporción” (2 muestras independientes) 120 Modelo de “Tabla de Contingencia”, 2 muestras independientes (TC2) ...................................................................................................... 121 Modelo de “Cochran-Mantel-Haenszel” (C-M-H) ................................ 124 Modelo de “McNemar”, 2 muestras dependientes.................................. 128 Escala Nominal, n muestras ................................................................................ 131 Modelo de “Tabla de Contingencia” para n muestras independientes (TCn) 131 Modelo de “Q de Cochran”, n muestras dependientes........................... 135 Modelo estadísticos en la escala “Ordinal” ....................................................... 137 Escala Ordina, 1 muestra 137 Modelo de “Kolmogorov-Smirnov”, 1 muestra (K-S1)........................... 137 Escala Ordina, 2 muestras ................................................................................... 139 Modelo de “Kolmogorov-Smirnov”, 2 muestra independientes (L-S2) 139 Modelo de “Prueba de Signos”, 2 muestras independientes 141 Modelo de “Wald-Wolfowitz”, 2 muestras independientes ................... 143 Modelo de “Suma de Rangos de Wilcoxon”, 2 muestras dependientes 146 Modelo de “Signo de Rangos de Wilcoxon”, 2 muestras dependientes 148 Modelo de “Comparación de 2 Medianas”.............................................. 150 Escala Ordina, n muestras ................................................................................... 152 Modelo de “Kruskal-Wallis”, n muestra independientes ...................... 152 Modelo de “Comparación de n Medianas independientes”.................. 154 Modelo de “Friedman”, n muestras dependientes .................................. 157
Índice 9 Detección y validación de Meta-Población o Cluster 159 I.- Ji2 Heterogénea (Ji2HET) ................................................................................... 159 IA - Resultados del análisis de Ji2 161 IA1 - J2 para igualdad de los impactos de factores de violencia ....... 161 IA2. J2 Heterogénea para detectar una meta-población .................... 162 II.- Tabla de Contingencia Heterogénea (TCHET) ............................................ 162 IIA - Resultados del análisis de TC 163 IIA1 – Tabla de contingencia (TC): independencia entre las violencias y las categorías ....................................................................... 163 IIA2. Tabla de contingencia Heterogénea: detectar una meta-población ............................................................................................ 165 Referencias ...................................................................................................................... 167
Según Carl Raymond Popper, la ciencia es el conjunto de conocimientos sistemáticos sobre objetos, sujetos, procesos y fenómenos y las leyes que rigen estos. El método científico, desde su descubrimiento en 1627 póstumo por Sir Francis Bacon (1561-1626), ha sido la antorcha de los científicos para la búsqueda de la realidad espacio temporal. En forma resumida, éste método se trata de 3 etapas: a) observar un fenómeno; b) generar una idea o hipótesis para explicar lo observado y responder a las interrogantes planteadas; y finalmente, c) comprobar la hipótesis planteada. Los avances desde hace 400 años han sido basados en la ciencia a través del uso del método científico. De hecho los progresos y los descubrimientos del hombre durante los últimos 4 siglos han sido enormes comparado con los descubrimientos debido a la Revolución Cognitiva (hace 70,000 años) o la Revolución Agrícola (hace 12,000 años) y de hecho, el progreso significativo de la Revolución Industrial (1776) y la Revolución Informática (actualidad) también se deben a la franquicia acumulativa de la ciencia y las avances tecnológicas. Popper afirma que la ciencia avanza por medio de la comprobación de las hipótesis adecuadas y la falsaciones severas de las equivocadas. Por otro ángulo, Thomas Samuel Kuhn, menciona que el avance de la ciencia es durante una serie de períodos de la Ciencia Normal separados por Revoluciones Científicas. Según Kuhn, hay rompimiento de las Paradigmas al encontrar Anomalías sobre ellos provocando Revoluciones Científicas.
Una hipótesis debe tener una validez interna antes de someterla a la comprobación externa, es decir, la hipótesis debe ser lógica, debe proporciona una explicación, debe estar sujeto a comprobación y finalmente, debe estar consistente con el marco de la referencia o la sabiduría convencional en el momento. Una vez verificada la validez interna, se puede sujetar la hipótesis al proceso de la comprobación y validación externa. El presente libro demuestra con ejemplos prác-
PRÓLOGO
ticos, a través de dos secciones la comprobación externa de la hipótesis por medio de los modelos Paramétricos (sección I) y moldeos No-Paramétricos (sección II). Se analizan los moldeos cuantitativos para comprobar la hipótesis para casos de 1, 2 o más de 2 muestras en función de los parámetros poblaciones de la media y la varianza. En el caso del modelo ANOVA, presentan diseños experimentales de tipo Completamente Aleatorio, Bloques Aleatorios, Cuadro Latino, Factorial, e Anidada. Los modelos cualitativos para las escalas nominal e ordinal para también casos de 1, 2 y más de 2 muestras tanto para muestras relacionadas como independientes. Además se presentan el modelo de Ji2 Heterogénea y T.C. Heterogénea para la detección de clusters o meta-grupos. Finalmente, se presentan modelo de correlación tipo paramétrico y no-paramétrico para determinar la naturaleza y la magnitud de interrelación entre las variables.
Los autores, marzo, 2023
12 Los autores
Sección I Modelos Paramétricos
Mohammad H. Badii, Amalia G. Gaytán & David E. Castillo
CONTEXTO
El uso de estadística tiene su origen rustico en los asuntos de los gobiernos y los Estados (de allí la palabra estadística relacionado con el Estado). Esto se debe a la noción de que se tenían que tomar en cuenta las extensiones de los terrenos para su utilización por parte de los agricultores, por ejemplo, y como consecuencia, poder estimar el impuesto que el terrateniente debía pagar al gobierno. Blaise Pascal el matemático Francés, utilizó de manera formal las nociones de probabilidad por vez primera y de allí en adelante se popularizó el uso de estadística. En forma muy breve, la ciencia estadística se trata de verificar la validez probabilística de todos los eventos, fenómenos, proceso y/o objetos de manera espacio-temporal. Existen solamente dos eventos que son determinísticos, es decir, que ocurren con 100% de exactitud en la vida, estos son, la muerte y el pago de los impuestos. Todos los demás eventos son estocásticos y requieren de la validez estadística. Más sin embargo, puede existir, a parte del uso correcto, también, el mal uso y hasta el abuso de la estadística. Hay que recalcar que la estadística finalmente, es un instrumento y un medio que se utiliza para fines de la deducción (descripción) y/o la inducción (toma de decisión) en el mundo.
Se puede apoyar a la toma de decisión sobre asuntos verdaderamente relevante, por ejemplo, en el ámbito político, religioso, social, económico, a través de las votaciones, los megaproyectos nacionales e internacionales, etc., o puede simplemente mentir con la estadística para proteger los intereses individuales o colectivas. Por tanto, además el científico crítico, es el deber de cada ciudadano intelectual, de versarse bien en el entorno y la ciencia de la estadística. La estadística es la ciencia que se trata de cuantificar la probabilidad de la ocurrencia o el efecto de cualquier evento, sujeto, proceso, fenómeno o interacciones resultantes. Hay que recalcar que la estadística es solamente un medio y no el fin. Sin embargo, algunos investigadores se involucran tanto en los detalles de la estadística que parece que hasta se trata de ajustar la realidad a los métodos estadísticos, es decir, para estos investigadores, si la estadística no define la realidad, uno debe
14
deshacerse de la realidad. En otras palabras, hemos sido testigo de abuso, mal uso y sobre uso de esta herramienta en las investigaciones en diferentes disciplinas en la búsqueda de patrones repetitivas, que forman el propósito de una franquicia muy sería denominada la ciencia (Badii & Castillo, 2007). Los ejemplos de este mal uso de la estadística abundan en las mejores revistar científicas del mundo. Es con este objetivo que debemos utilizar de forma adecuada las diferentes distribuciones probabilísticas de uso actual en nuestras investigaciones.
Una característica común de los experimentos en muchas disciplinas es cuando se repiten estos experimentos, los resultados de los tratamientos varían de un ensayo al otro. Obviamente, esta variación genera un grado de incertidumbre con relación a las conclusiones derivados de estos resultados. Ahora bien, existe variación innata entre las unidades experimentales debido a los factores de la herencia y del medio ambiente. Esta variación se denomina el error del experimento o el error experimental cuyo efecto debe distingue de las variaciones debido a la influencia de los tratamientos. Precisamente, es por estas razones que se usan los diseños experimentales, es decir, el uso de los diseños experimentales se debe a la necesidad del determinar la probable diferencia estadística entre diferentes tratamiento y aparte, buscar tendencias o patrones derivados de los resultados. Hay diseños experimentales estándares que se han usado durante casi un siglo en diferentes disciplinas científicas, especialmente en el área de agricultura, biología, psicología sociología, física, etc. Sin embargo, actualmente existen diseños específicos adecuados para cada rama del estudio. A parte hay paquetes especializados (SAS, SPSS, R, MINITAB, etc.) que permiten la conducción de diferentes tipos de diseños experimentales. El objetivo de este trabajo es el familiarizar a los lectores con el primer nivel con las pruebas estadísticas de hipótesis y en el segundo lugar, las bases críticas de los diseños experimentales comunes por medio de un ejemplo de los datos reales. Conociendo estos fundamentos permite un acercamiento más amigable a otros métodos y distintos tipos de diseños ejemplificados en diversos paquetes estadísticos.
Sección I, Modelos Paramétricos 15
Mohammad H. Badii, Amalia G. Gaytán & David E. Castillo
INTRODUCCIÓN
La palabra statistik proviene de la palabra italiana statista que fue utilizada por primera vez por Gottfried Achenwall (1719-1772), un profesor de Marlborough y de Göttingen, y el Dr. E. A. W. Zimmerman introdujo el término estadística a Inglaterra. Su uso fue popularizado por sir John Sinclair en su obra Statistical Account of Scotland (1791-1799). Sin embargo, mucho antes del siglo XVIII, la gente utilizaba y registraba datos. La estadística gubernamental oficial es tan vieja como la historia registrada. El viejo testamento contiene varios informes sobre levantamiento de censos. Los gobiernos de los antiguos Babilonia, Egipto y Roma reunieron registros detallados sobre la población y los recursos. En la edad media, los gobiernos empezaron a registrar la propiedad de la tierra. En el año 762 de nuestra era, Carlomagono pidió la descripción detallada de las propiedades de la Iglesia. A principio del siglo IX terminó la enumeración estadística de los servicios que había en los feudos. Por el año 1106, Guillermo el Conquistador ordenó que se escribiera el Domesday Book, un registro de la propiedad, extensión y valor de las tierras de Inglaterra. Este trabajo fue el primer resumen estadístico de Inglaterra. Durante el siglo XVI los gobiernos inglés y francés empezaron a registrar el número de muertos por el brote de peste, el número de bautismos, defunciones y matrimonios. La historia del desarrollo de la teoría estadística y su práctica es larga.
Sólo hemos empezado a nombrar las personas que hicieron contribuciones significativas al campo. Más adelante encontraremos a otros cuyos nombres están relacionados con leyes y métodos específicos. Mucha gente ha contribuido al estudio de la estadística con refinamientos a innovaciones que, en conjunto, constituyen la base teórica de lo que se va a estudiar en el presente trabajo. El propósito de este trabajo es la identificación de la naturaleza de la estadística, sus objetivos y cómo desempeña un papel importante en las ciencias, en la industria y, finalmente, en nuestra vida cotidiana. En esta investigación describiremos los objetivos de la ciencia estadística. En especial, se identificarán los tipos de problemas que la metodología
16
estadística puede resolver y después explicaremos cómo se puede utilizar éste medio valioso para contestar algunas preguntas de la práctica.
Según Badii et al. (2004), Foroughbakhch y Badii (2005), Badii et al. (2006) y Badii y Castillo (2007), la estadística se trata de verificar la validez probabilística de los acontecimientos en la escala tiempo-espacio, también se la usa para relacionar los eventos diarios; como la predicción del tiempo o al determinar el nivel probabilístico de las tasas de cambio de las monedas extranjeras en el mercado financiero (Badii et al., 2007a, b, c, d, e). No obstante, en la investigación formal es donde la estadística se emplea y es de mayor relevancia para la humanidad. Estadística, derivado del latín status, que significa estado, posición o situación, se define como conjunto de técnicas para la colección, manejo, descripción y análisis de información, de manera tal que los resultados obtenidas de su aplicación tengan un grado de aplicabilidad específico con su nivel probabilístico indicado. Además, por estadística entendemos la colección de los datos que caracterizan las condiciones predominantes en un país, por ejemplo, el número de nacimientos y muertes, las cosechas, el comercio exterior, etc. Por estadísticas oficiales entendemos los datos publicados por las agencias del gobierno en forma de información o de prospectos (Infante Gil y Zarate, 2000). Por tanto, es la ciencia que estudia conjuntos de datos cualitativos y cuantitativos y su interpretación en términos matemáticos, estableciendo métodos para la obtención de las medidas que lo describen, así como para el análisis de las conclusiones, con especial referencia a la teoría de la probabilidad, considerada también como ciencia de base matemática para la toma de decisiones en presencia de la incertidumbre. Indica una medida o fórmula especial, tal como un promedio, un número índice o un coeficiente de correlación, calculado sobre la base de los datos. Considerada también como un suministro de un conjunto de herramientas sumamente útiles en la investigación (Badii et al., 2004).
Las primeras aplicaciones de la estadística se limitaban únicamente a determinar el punto donde la tendencia general era evidente
Sección I, Modelos Paramétricos 17
Mohammad H. Badii, Amalia G. Gaytán & David E. Castillo
(si es que existía) a partir de una gran cantidad de datos observados. Al mismo tiempo, en muchas ciencias se hizo énfasis de que en lugar de hacer estudios individuales, deberían hacerse estudios de comportamiento de grupos de individuos. Los métodos de estadística satisficieron admirablemente tal necesidad pues, los grupos concuerdan consistentemente con el concepto de la población o el universo (Badii et al., 2004, Badii y Castillo, 2007). El mayor desenvolvimiento de la estadística surgió al presentarse la necesidad de mejorar la herramienta analítica en ciencias naturales. Se requería mejores herramientas analíticas para optimizar el proceso de interpretación de datos de la muestra y la generalización, que a partir de ellas, podría hacerse. Por ejemplo, el agricultor siempre está enfrentando el problema de mantener un alto nivel de productividad en sus cosechas (Foroughbakhch y Badii, 2005, Badii y Castillo, 2007).
BASES CONCEPTUALES
La estadística analiza o procesa conjuntos de datos numéricos, estudia las funciones decisorias estadísticas, fenómenos conjuntos para revelar los fundamentos de su desarrollo y para tal estudio se sirve de índices generalizadores (valores, medios, relaciones, porcentajes, etc.). La estadística auxilia a la investigación al tratar con los siguientes temas.
1.- La colecta y compilación de datos.
2.- El diseño de experimentos.
3.- La medición de la valoración, tanto de datos experimentales como de reconocimientos y detección de causas.
4.- El control de la calidad de la producción.
5.- La determinación de parámetros de población y suministro de varias medidas de la exactitud y precisión de esas estimaciones.
6.- La estimación de cualidades humanas.
18
7.- La investigación de mercados, incluyendo escrutinios de opiniones emitidas.
8.- El ensayo de hipótesis respecto a poblaciones.
9.- El estudio de la relación entre dos o más variables (Badii et al., 2004, Foroughbakhch y Badii, 2005, Badii y Castillo, 2007).
La estadística tiene como objeto el estudio de determinadas magnitudes individuales que supuestamente varían de un modo aleatorio en el seno de cierta población. Puede tratarse, por ejemplo, de la altura de los habitantes de un país. Dicho estudio se organiza en dos fases que constituyen los respectivos temas propios de la estadística deductiva o descriptiva y de la estadística inductiva o inferencial (Ostle, 1994, Steel y Torrie, 1986, Badii et al., 2004, Badii et al., 2007a, b, c, d, e). En el desarrollo de la ciencia en general y en especial en el de las ciencias naturales, el conocimiento de la metodología estadística es una arma imprescindible para la obtención, análisis e interpretación de todos los datos que proceden de las observaciones sistemáticas o de experimentaciones proyectadas específicamente para conocer los efectos de uno o varios factores que intervienen en los fenómenos bajo estudio. La estadística permite probar hipótesis planteadas por el experimentador, determina procedimientos prácticos para estimar parámetros que intervienen en modelos matemáticos y de esa manera construir ecuaciones empíricas.
No existe investigación, proceso o trabajo encaminado a obtener información cuantitativa en general, en la que la estadística no tenga una aplicación. La estadística no puede ser ignorada por ningún investigador, aun cuando no tenga ocasión de emplear la estadística aplicada en todos sus detalles y ramificaciones. Los resultados de una investigación agroalimentaria reflejan los efectos de tratamiento, de diseño, e incluso de factores biológicos, ambientales y de manejo que los emplean. Es una característica común en los experimentos, en muy diversos campos de la investigación, que los efectos de los tratamientos experimentales varían de un ensayo a otro, cuando se repiten. Esta variación introduce cierto grado de incertidumbre en cualquiera de las conclusiones que se obtienen de los resultados (Morris,
Sección I, Modelos Paramétricos 19