Medidas de tendencia centrales y variabilidad

MEDIDAS DE TENDENCIA CENTRAL

Al trabajar con histogramas y polígonos de frecuencias, vimos que las distribución de los datos

pueden adoptar varias formas. En algunas distribuciones los datos tienden a agruparse más en una

parte de la distribución que en otra. Comenzaremos a analizar las distribuciones con el objeto de

obtener medidas descriptivas numéricas llamadas estadísticas, que nos ayuden en el análisis de las

características de los datos. Dos de estas características son de particular importancia para los

responsables de tomar decisiones: la tendencia central y la dispersión

MEDIDAS DE TENDENCIA CENTRAL: Moda, mediana y media

Tendencia central : La tendencia central se refiere al punto medio de una distribución. Las medidas

de tendencia central se denominan medidas de posición.

Moda:Es el valor que más se repite en un conjunto de datos.

VENTAJAS Y DESVENTAJAS DE LA MODA

Se puede utilizar para datos cualitativos nominales u ordinales y para datos cuantitativos

No se ve afectada por los valores extremos

vSe puede utilizar cuando la distribución de frecuencias tenga clases abiertas

Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, se dice que no tiene moda

Si un conjunto de datos contiene 2 puntuaciones adyacentes con la misma frecuencia común (mayor que cualquier otra), la moda es el promedio de las 2 puntuaciones adyacentes Ej. (0,1,1,2,2,2,3,3,3,4,5) tiene Mo=2,5

Si en un conjunto de datos hay dos que no son adyacentes con la misma frecuencia mayor que las demás, es una distribución bimodal. Conjuntos muy numerosos se denominan bimodales cuando presentan un polígono de frecuencias con 2 lomos, aún cuando las frecuencias en los 2 picos no sean exactamente iguales. Estas ligeras distorsiones de la definición están permitidas porque el término bimodal es muy conveniente y en último término es descriptivo. Una distinción conveniente puede hacerse entre la moda mayor y la moda menor. Por ejemplo en el gráfico siguiente, la moda mayor es 6 y las menores son 3,5 y 10

Mediana: es el valor que divide al conjunto ordenado de datos, en dos subconjuntos con la misma cantidad de elementos. La mitad de los datos son menores que la mediana y la otra mitad son mayores

VENTAJAS Y DESVENTAJAS DE LA MEDIANA

Se puede utilizar para datos cualitativos ordinales y para datos cuantitativos

Autores: Liliana Marconi / Adriana D´Amelio

No se ve afectada por los valores extremos. Esta es la propiedad más importante que tiene.

Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, a menos que la mediana caiga en una de las clases abiertas

Si hay un gran número de datos, el tener que ordenarlos para hallar la mediana insume esfuerzo y tiempo.

Media o media aritmética: Es el promedio de los datos

VENTAJAS Y DESVENTAJAS DE LA MEDIA

Se trata de un concepto familiar e intuitivamente claro

Cada conjunto de datos tiene una media y es única

Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos. En estadística inferencial es la medida de tendencia central que tiene mejores propiedades

Aunque la media es confiable en el sentido de que toma en cuenta todos los valores del conjunto de datos, puede verse afectada por valores extremos que no son representativos del resto de los datos. La media puede malinterpretarse si los datos no forman un conjunto homogéneo.

No se puede calcular la media si la distribución de frecuencias tiene clases abiertas

COMPARACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA

Las distribuciones simétricas tienen el mismo valor para la media, la mediana y la moda.

En una distribución con sesgo positivo, la moda se halla en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la media más a la derecha. Es decir Mo < Me < x

En una distribución con sesgo negativo, la moda es el punto más alto, la mediana está la izquierda de la moda y la media está a la izquierda de la mediana. Es decir,

x < Me < Mo

Cuando la población tiene una distribución sesgada, con frecuencia la mediana resulta ser la mejor medida de posición, debido a que está siempre entre la media y la moda. La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la media.

MEDIDAS DE VARIABILIDAD

Dispersión: La dispersión se refiere a la extensión de los datos, es decir al grado en que las observaciones se distribuyen (o se separan). Existen otras dos características de los conjuntos de datos que proporcionan información útil: el sesgo y la curtosis.

Sesgo (skewness) : Las curvas que representan un conjunto de datos pueden ser simétricas o sesgadas. Las curvas simétricas tienen una forma tal que una línea vertical que pase por el punto más alto de la curva, divide al área de ésta en dos partes iguales. Si los valores se concentran en un extremo se dice sesgada. Una curva tiene sesgo positivo cuando los valores van disminuyendo lentamente hacia el extremo derecho de la escala y sesgo negativo en caso contrario.

Curtosis (Kurtosis) : Nos da una idea de la agudeza (o lo plano) de la distribución de frecuencias.

Una curva normal (es el patrón con el que se compara la curtosis de otras curvas) tiene curtosis 0.

Esta curva se llama meso cúrtica. Si la curtosis es mayor que0, la curva es más empinada que la anterior y se denomina leptocúrtica (Lepto, del griego, "empinado" o "estrecho"). Si la curtosis es menor que0, es relativamente plana y se denomina platicúrtica ( "plano", "ancho")(En el gráfico la curva punteada es la curva normal (mesocúrtica))

MEDIDAS DE DISPERSIÓN

Las medidas de dispersión son útiles porque:

Nos proporcionan información adicional que nos permite juzgar la confiabilidad de nuestra medida de tendencia central. Si los datos están muy dispersos la posición central es menos representativa de los datos, como un todo, que cuando estos se agrupan más estrechamente alrededor de la media.

Ya que existen problemas característicos de distribuciones muy dispersas, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar los problemas

Nos permiten comparar varias muestras con promedios parecidos

Los analistas financieros están preocupados por la dispersión de las ganancias de una empresa que van desde valores muy grandes a valores negativos. Esto indica un riesgo mayor para los accionistas y para los acreedores. De manera similar los expertos en control de calidad, analizan los niveles de calidad de un producto

RANGO:

Es la diferencia entre el mayor y el menor de los valores

El rango es fácil de entender y de encontrar, pero su utilidad como medida de dispersión es limitada. Como sólo toma en cuenta el valor más alto y el valor más bajo ignora la naturaleza de la variación entre todas las demás observaciones, y se ve muy influido por los valores extremos.

Debido a que considera sólo dos valores tiene muchas posibilidades de cambiar drásticamente de una muestra a otra en una población dada.

Las distribuciones de extremo abierto no tienen rango.

VARIANZA Y DESVIACIÓN ESTÁNDAR

Las descripciones más comprensibles de la dispersión son aquellas que tratan con la desviación promedio con respecto a alguna medida de tendencia central. Veremos dos medidas que nos dan una distancia promedio con respecto a la media de la distribución: varianza y desviación estándar.

VARIANZA DE LA POBLACIÓN:

Es el promedio de las distancias al cuadrado que van de las observaciones a la media

VARIANZA Y DESVIACIÓN ESTÁNDAR MUESTRAL

Para calcular la varianza y la desviación estándar muestral se utilizan las mismas fórmulas que las poblacionales, sustituyendo m con x y N con n - 1.

COBAO PL- 04 "El Tule"

Alumno : Hernández Cuevas Jorge Alberto Grupo: 533

Materia: Probabilidad y Estadística

Tercer evaluación parcial

Medidas de tendencia centrales y variabilidad

domingo, 3 de noviembre de 2013

No hay comentarios:

Publicar un comentario