MEDIDAS DE TENDENCIA CENTRAL
Al trabajar con
histogramas y polígonos de frecuencias, vimos que las distribución de los datos
pueden adoptar varias formas. En algunas distribuciones los
datos tienden a agruparse más en una
parte de la distribución que en otra. Comenzaremos a analizar
las distribuciones con el objeto de
obtener medidas descriptivas numéricas llamadas estadísticas,
que nos ayuden en el análisis de las
características de los datos. Dos de estas características
son de particular importancia para los
responsables de tomar decisiones: la tendencia central y la
dispersión
MEDIDAS DE TENDENCIA
CENTRAL: Moda, mediana y media
Tendencia central : La tendencia central se refiere al punto
medio de una distribución. Las medidas
de tendencia central se denominan medidas de posición.
Moda:Es el valor que más se
repite en un conjunto de datos.
VENTAJAS Y DESVENTAJAS DE LA MODA
Se puede
utilizar para datos cualitativos nominales u ordinales y para datos cuantitativos
No se ve
afectada por los valores extremos
vSe puede utilizar cuando la distribución de
frecuencias tenga clases abiertas
Cuando todas
las puntuaciones de un grupo tienen la misma frecuencia, se dice que no tiene
moda
Si un conjunto de datos contiene 2 puntuaciones adyacentes
con la misma frecuencia común (mayor que cualquier otra), la moda es el
promedio de las 2 puntuaciones adyacentes Ej. (0,1,1,2,2,2,3,3,3,4,5) tiene
Mo=2,5
Si en un conjunto de datos hay dos que no son
adyacentes con la misma frecuencia mayor que las demás, es una distribución
bimodal. Conjuntos muy numerosos se denominan bimodales cuando presentan un
polígono de frecuencias con 2 lomos, aún cuando las frecuencias en los 2 picos
no sean exactamente iguales. Estas ligeras distorsiones de la definición están
permitidas porque el término bimodal es muy conveniente y en último término es
descriptivo. Una distinción conveniente puede hacerse entre la moda mayor y la
moda menor. Por ejemplo en el gráfico siguiente, la moda mayor es 6 y las
menores son 3,5 y 10
Mediana: es el valor
que divide al conjunto ordenado de datos, en dos subconjuntos con la misma
cantidad de elementos. La mitad de los datos son menores que la mediana y la
otra mitad son mayores
VENTAJAS Y DESVENTAJAS DE LA MEDIANA
Se puede utilizar para datos cualitativos ordinales y para
datos cuantitativos
Autores: Liliana Marconi / Adriana D´Amelio
No se ve afectada por
los valores extremos. Esta es la propiedad más importante que tiene.
Se puede utilizar
cuando la distribución de frecuencias tiene clases abiertas, a menos que la
mediana caiga en una de las clases abiertas
Si hay un gran número
de datos, el tener que ordenarlos para hallar la mediana insume esfuerzo y
tiempo.
Media o media aritmética: Es el promedio de los datos
VENTAJAS Y
DESVENTAJAS DE LA MEDIA
Se trata de un
concepto familiar e intuitivamente claro
Cada conjunto de datos
tiene una media y es única
Es útil para llevar a
cabo procedimientos estadísticos como la comparación de medias de varios conjuntos
de datos. En estadística inferencial es la medida de tendencia central que
tiene mejores propiedades
Aunque la media es
confiable en el sentido de que toma en cuenta todos los valores del conjunto de
datos, puede verse afectada por valores extremos que no son representativos del
resto de los datos. La media puede malinterpretarse si los datos no forman un
conjunto homogéneo.
No se puede calcular la media si la distribución de
frecuencias tiene clases abiertas
COMPARACIÓN
ENTRE LA MEDIA, LA MEDIANA Y LA MODA
Las distribuciones simétricas tienen el mismo valor para la
media, la mediana y la moda.
En una distribución
con sesgo positivo, la moda se halla en el punto más alto de la distribución,
la mediana está hacia la derecha de la moda y la media más a la derecha. Es
decir Mo < Me < x
En una distribución con sesgo negativo, la moda es el punto
más alto, la mediana está la izquierda
de la moda y la media está a la izquierda de la mediana. Es decir,
x < Me
< Mo
Cuando la población tiene una distribución sesgada, con
frecuencia la mediana resulta ser la mejor medida de posición, debido a que está
siempre entre la media y la moda. La mediana no se ve altamente influida por la
frecuencia de aparición de un solo valor como es el caso de la moda, ni se
distorsiona con la presencia de valores extremos como la media.
MEDIDAS DE VARIABILIDAD
Dispersión: La dispersión se refiere a la extensión de los
datos, es decir al grado en que las observaciones se distribuyen (o se separan).
Existen otras dos características de los conjuntos de datos que proporcionan
información útil: el sesgo y la curtosis.
Sesgo (skewness) : Las curvas que representan un conjunto de datos
pueden ser simétricas o sesgadas. Las curvas simétricas tienen una forma tal
que una línea vertical que pase por el punto más alto de la curva, divide al
área de ésta en dos partes iguales. Si los valores se concentran en un extremo
se dice sesgada. Una curva tiene sesgo positivo cuando los valores van disminuyendo
lentamente hacia el extremo derecho de la escala y sesgo negativo en caso
contrario.
Curtosis (Kurtosis) : Nos da una idea de la agudeza (o lo
plano) de la distribución de frecuencias.
Una curva normal (es el patrón con el que se compara la
curtosis de otras curvas) tiene curtosis 0.
Esta curva se llama meso cúrtica. Si la curtosis es mayor
que0, la curva es más empinada que la anterior y se denomina leptocúrtica
(Lepto, del griego, "empinado" o "estrecho"). Si la
curtosis es menor que0, es relativamente plana y se denomina platicúrtica (
"plano", "ancho")(En el gráfico la curva punteada es la
curva normal (mesocúrtica))
MEDIDAS DE DISPERSIÓN
Las medidas de
dispersión son útiles porque:
Nos proporcionan
información adicional que nos permite juzgar la confiabilidad de nuestra medida
de tendencia central. Si los datos están muy dispersos la posición central es
menos representativa de los datos, como un todo, que cuando estos se agrupan
más estrechamente alrededor de la media.
Ya que existen
problemas característicos de distribuciones muy dispersas, debemos ser capaces
de distinguir que presentan esa dispersión antes de abordar los problemas
Nos permiten comparar
varias muestras con promedios parecidos
Los analistas
financieros están preocupados por la dispersión de las ganancias de una empresa
que van desde valores muy grandes a valores negativos. Esto indica un riesgo
mayor para los accionistas y para los acreedores. De manera similar los
expertos en control de calidad, analizan los niveles de calidad de un producto
RANGO:
Es la diferencia entre
el mayor y el menor de los valores
El rango es fácil de entender y de encontrar, pero su
utilidad como medida de dispersión es limitada. Como sólo toma en cuenta el
valor más alto y el valor más bajo ignora la naturaleza de la variación entre
todas las demás observaciones, y se ve muy influido por los valores extremos.
Debido a que considera sólo dos valores tiene muchas
posibilidades de cambiar drásticamente de una muestra a otra en una población
dada.
Las distribuciones de
extremo abierto no tienen rango.
VARIANZA Y DESVIACIÓN ESTÁNDAR
Las descripciones más comprensibles de la
dispersión son aquellas que tratan con la desviación promedio con respecto a
alguna medida de tendencia central. Veremos dos medidas que nos dan una distancia
promedio con respecto a la media de la distribución: varianza y desviación
estándar.
VARIANZA DE LA POBLACIÓN:
Es el promedio de las
distancias al cuadrado que van de las observaciones a la media
VARIANZA Y DESVIACIÓN ESTÁNDAR MUESTRAL
Para calcular la varianza y la desviación
estándar muestral se utilizan las mismas fórmulas que las poblacionales,
sustituyendo m con x y N con n - 1.
COBAO PL- 04 "El Tule"
Alumno : Hernández Cuevas Jorge Alberto Grupo: 533
Materia: Probabilidad y Estadística
Tercer evaluación parcial
No hay comentarios:
Publicar un comentario