Cómo determinar el tipo de distribución de probabilidad para los datos

Tabla de contenido:

Anonim

Cuando haya recopilado datos sobre su sistema o proceso, el siguiente paso es determinar qué tipo de distribución de probabilidad tiene uno. Los tipos de distribuciones de probabilidad son: discreto uniforme, Bernoulli, binomial, binomial negativo, Poisson, geométrico, uniforme continuo, normal (curva de campana), exponencial, gamma y beta. Reducir incluso algunos de la lista de posibilidades hace que determinar cuál es el valor de R al cuadrado más cercano sea mucho más rápido.

Artículos que necesitarás

  • Software de graficacion

  • Medios para calcular el valor de R cuadrado (análisis de mejor ajuste)

Grafica los datos para una representación visual del tipo de datos.

Uno de los primeros pasos para determinar qué distribución de datos tiene uno y, por lo tanto, el tipo de ecuación que debe usarse para modelar los datos, es descartar lo que no puede ser. • Si hay algunos picos en el conjunto de datos, no puede ser una distribución uniforme discreta. • Si los datos tienen más de un pico, no es Poisson o binomial. • Si tiene una sola curva, no tiene picos secundarios y tiene una pendiente lenta en cada lado, puede ser Poisson o una distribución gamma. Pero no puede ser una distribución uniforme discreta. • Si los datos se distribuyen de manera uniforme y no se desvían hacia un lado, es seguro descartar una distribución gamma o Weibull. • Si la función tiene una distribución uniforme o un pico en medio de los resultados graficados, no es una distribución geométrica o una distribución exponencial. • Si la ocurrencia de un factor varía con una variable ambiental, probablemente no sea una distribución de Poisson.

Una vez que el tipo de distribución de probabilidad se haya reducido, realice un análisis de R cuadrado de cada tipo posible de distribución de probabilidad. El que tiene el valor de R cuadrado más alto es probablemente el correcto.

Eliminar un punto de datos atípico. Luego recalcular R al cuadrado. Si el mismo tipo de distribución de probabilidad aparece como la coincidencia más cercana, entonces hay una gran confianza en que esta es la distribución de probabilidad correcta para el conjunto de datos.

Consejos

  • Si los datos muestran una dispersión amplia de picos múltiples, es posible que se estén llevando a cabo dos procesos separados o que el producto que se muestrea esté mezclado. Recoja los datos y luego vuelva a analizarlos.

Advertencia

Valide las ecuaciones generadas contra los conjuntos de datos posteriores para confirmar que todavía es precisa para el conjunto de datos. Es posible que los factores ambientales y la desviación del proceso hayan hecho que las ecuaciones y los modelos actuales sean incorrectos.