En estadística, un k -ésimo percentil ( puntuación de percentil o percentil), denotado, es una puntuación por debajo del cual cae un porcentaje determinado de puntuaciones k en su distribución de frecuencia (definición exclusiva) o una puntuación en o por debajo del cual cae un porcentaje dado (inclusive definición). Por ejemplo, el percentil 50 (la mediana ) es el puntaje por debajo del cual (exclusivo) o en o por debajo del cual (inclusive) se puede encontrar el 50% de los puntajes en la distribución. Los percentiles se expresan en la misma unidad de medida como puntajes de entrada; por ejemplo, si las puntuaciones se refieren al peso humano, los percentiles correspondientes se expresarán en kilogramos o libras.
El puntaje percentil y el rango percentil son términos relacionados. El rango percentil de un puntaje es el porcentaje de puntajes en su distribución que son menores que él, una definición exclusiva y que se puede expresar con una fórmula única y simple. Los puntajes percentiles y los rangos percentiles se utilizan a menudo en el informe de puntajes de pruebas de pruebas con referencia a normas, pero, como se acaba de señalar, no son lo mismo. Para el rango percentil, se da una puntuación y se calcula un porcentaje. Los rangos percentiles son exclusivos. Si el rango percentil para un puntaje específico es 90%, entonces el 90% de los puntajes fueron más bajos. Por el contrario, para los percentiles se da un porcentaje y se determina una puntuación correspondiente, que puede ser excluyente o inclusiva. El puntaje para un porcentaje específico (por ejemplo, 90º) indica un puntaje por debajo del cual (definición exclusiva) o en o por debajo del cual (definición inclusiva) otros puntajes en la distribución caen.
El percentil 25 también se conoce como el primer cuartil ( Q 1), el percentil 50 como la mediana o el segundo cuartil ( Q 2) y el percentil 75 como el tercer cuartil ( Q 3).
Contenido
1 Aplicaciones
2 La distribución normal y los percentiles
3 Definiciones
4 métodos de cálculo
5 El método de rango más cercano
5.1 Ejemplos resueltos del método de rango más cercano
6 El método de interpolación lineal entre rangos más cercanos
6.1 Similitudes entre las variantes de este método
6.2 Primera variante, C = 1/2
6.2.1 Ejemplo resuelto de la primera variante
6.3 Segunda variante, C = 1
6.3.1 Ejemplos resueltos de la segunda variante
6.3.1.1 Ejemplo 1
6.3.1.2 Ejemplo 2
6.4 Tercera variante, C = 0
6.4.1 Ejemplo resuelto de la tercera variante
7 El método de percentiles ponderados
8 Véase también
9 referencias
Aplicaciones
Cuando los ISP facturan un ancho de banda de Internet "ampliable", el percentil 95 o 98 generalmente corta el 5% o 2% superior de los picos de ancho de banda en cada mes, y luego factura a la tarifa más cercana. De esta forma, se ignoran los picos poco frecuentes y se cobra al cliente de forma más justa. La razón por la que esta estadística es tan útil para medir el rendimiento de datos es que brinda una imagen muy precisa del costo del ancho de banda. El percentil 95 dice que el 95% del tiempo, el uso está por debajo de esta cantidad: entonces, el 5% restante del tiempo, el uso está por encima de esa cantidad.
Los médicos a menudo utilizan el peso y la altura de los bebés y los niños para evaluar su crecimiento en comparación con los promedios y percentiles nacionales que se encuentran en las tablas de crecimiento.
El percentil 85 de velocidad del tráfico en una carretera se utiliza a menudo como una guía para establecer límites de velocidad y evaluar si dicho límite es demasiado alto o bajo.
En finanzas, el valor en riesgo es una medida estándar para evaluar (de una manera dependiente del modelo) la cantidad por debajo de la cual no se espera que el valor de la cartera se hunda dentro de un período de tiempo dado y dado un valor de confianza.
La distribución normal y los percentiles
Representación de la regla de tres sigma. La zona azul oscuro representa observaciones dentro de una desviación estándar (σ) a cada lado de la media (μ), lo que representa aproximadamente el 68,3% de la población. Dos desviaciones estándar de la media (azul oscuro y medio) representan aproximadamente el 95,4% y tres desviaciones estándar (azul oscuro, medio y claro) de aproximadamente el 99,7%.
Los métodos que se dan en la sección de definiciones (a continuación) son aproximaciones para usar en estadísticas de muestras pequeñas. En términos generales, para poblaciones muy grandes que siguen una distribución normal, los percentiles a menudo se pueden representar por referencia a una gráfica de curva normal. La distribución normal se traza a lo largo de un eje escalado a desviaciones estándar o unidades sigma (). Matemáticamente, la distribución normal se extiende al infinito negativo a la izquierda y al infinito positivo a la derecha. Sin embargo, tenga en cuenta que solo una proporción muy pequeña de individuos en una población quedará fuera del rango de −3 σ a +3 σ. Por ejemplo, con las alturas humanas, muy pocas personas están por encima del nivel de altura de +3 σ.
Los percentiles representan el área bajo la curva normal, aumentando de izquierda a derecha. Cada desviación estándar representa un percentil fijo. Por lo tanto, redondeando a dos lugares decimales, −3 σ es el percentil 0,13, −2 σ el percentil 2,28, −1 σ el percentil 15,87, 0 σ el percentil 50 (tanto la media como la mediana de la distribución), + 1 σ el percentil 84,13, +2 σ el percentil 97,72 y +3 σ el percentil 99,87. Esto está relacionado con la regla 68–95–99.7 o la regla tres sigma. Tenga en cuenta que, en teoría, el percentil 0 cae en un infinito negativo y el percentil 100 en un infinito positivo, aunque en muchas aplicaciones prácticas, como los resultados de las pruebas, se aplican los límites inferiores y / o superiores naturales.
Definiciones
No existe una definición estándar de percentil; sin embargo, todas las definiciones arrojan resultados similares cuando el número de observaciones es muy grande y la distribución de probabilidad es continua. En el límite, como el tamaño de la muestra se aproxima a infinito, el 100 p ésimo percentil (0 lt; p lt;1) se aproxima a la inversa de la función de distribución acumulativa (CDF) así formado, evaluada en p, como p se aproxima a la CDF. Esto puede verse como una consecuencia del teorema de Glivenko-Cantelli. A continuación se muestran algunos métodos para calcular los percentiles.
Métodos de cálculo
Percentiles interpolados y de rango más cercano, exclusivos e inclusivos para la distribución de 10 puntajes.
Existen muchas fórmulas o algoritmos para una puntuación percentil. Hyndman y Fan identificaron nueve y la mayoría de los programas estadísticos y de hojas de cálculo utilizan uno de los métodos que describen. Los algoritmos devuelven el valor de una puntuación que existe en el conjunto de puntuaciones (métodos de rango más cercano) o interpolan entre las puntuaciones existentes y son exclusivos o inclusivos.
Métodos de rango más cercano (exclusivo / inclusivo)
PC: percentil especificado
0,10
0,25
0,50
0,75
0,90
N: número de puntuaciones
10
10
10
10
10
O: rango ordinal = PC × N
1
2.5
5
7.5
9
Rango:gt; O / ≥O
2/1
3/3
6/5
8/8
9/10
Puntuación en el rango (exc / inc)
2/1
3/3
4/3
5/5
7/5
La figura muestra una distribución de 10 puntajes, ilustra los puntajes percentiles que resultan de estos diferentes algoritmos y sirve como una introducción a los ejemplos que se dan a continuación. Los más simples son los métodos de rango más cercano que devuelven una puntuación de la distribución, aunque en comparación con los métodos de interpolación, los resultados pueden ser un poco toscos. La tabla Métodos de rango más cercano muestra los pasos computacionales para los métodos exclusivos e inclusivos.
Los métodos de interpolación, como su nombre lo indica, pueden devolver una puntuación entre las puntuaciones de la distribución. Los algoritmos utilizados por los programas estadísticos suelen utilizar métodos de interpolación, por ejemplo, las funciones percentile.exl y percentile.inc en Microsoft Excel. La tabla de métodos interpolados muestra los pasos de cálculo.
El método de rango más cercano
Los valores de percentiles de la lista ordenada {15, 20, 35, 40, 50}
Una definición de percentil, que a menudo se da en los textos, es que el percentil P -ésimo de una lista de N valores ordenados (ordenados de menor a mayor) es el valor más pequeño de la lista, de modo que no más del P por ciento de los datos son estrictamente menor que el valor y al menos el P por ciento de los datos es menor o igual que ese valor. Esto se obtiene calculando primero el rango ordinal y luego tomando el valor de la lista ordenada que corresponde a ese rango. El rangoordinal n se calcula usando esta fórmula
Tenga en cuenta lo siguiente:
Usar el método de rango más cercano en listas con menos de 100 valores distintos puede resultar en que se use el mismo valor para más de un percentil.
Un percentil calculado utilizando el método de rango más cercano siempre será un miembro de la lista ordenada original.
El percentil 100 se define como el valor más grande en la lista ordenada.
Ejemplos resueltos del método de rango más cercano
Ejemplo 1
Considere la lista ordenada {15, 20, 35, 40, 50}, que contiene 5 valores de datos. ¿Cuáles son los percentiles 5, 30, 40, 50 y 100 de esta lista utilizando el método de rango más cercano?
Percentil p
Número en la lista N
Rango ordinal n
Número de la lista ordenada que tiene ese rango
Valor percentil
Notas
Quinto
5
el primer número de la lista ordenada, que es 15
15
15 es el elemento más pequeño de la lista; El 0% de los datos es estrictamente menor que 15 y el 20% de los datos es menor o igual que 15.
30
5
el segundo número en la lista ordenada, que es 20
20
20 es un elemento de la lista ordenada.
40º
5
el segundo número en la lista ordenada, que es 20
20
En este ejemplo, es lo mismo que el percentil 30.
50
5
el tercer número en la lista ordenada, que es 35
35
35 es un elemento de la lista ordenada.
100
5
el último número de la lista ordenada, que es 50
50
El percentil 100 se define como el valor más grande de la lista, que es 50.
Por tanto, los percentiles 5, 30, 40, 50 y 100 de la lista ordenada {15, 20, 35, 40, 50} que utilizan el método de rango más cercano son {15, 20, 20, 35, 50}.
Ejemplo 2
Considere una población ordenada de 10 valores de datos {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. ¿Cuáles son los percentiles 25, 50, 75 y 100 de esta lista utilizando el método de rango más cercano?
Percentil p
Número en la lista N
Rango ordinal n
Número de la lista ordenada que tiene ese rango
Valor percentil
Notas
25
10
el tercer número en la lista ordenada, que es 7
7
7 es un elemento de la lista.
50
10
el quinto número en la lista ordenada, que es 8
8
8 es un elemento de la lista.
75º
10
el octavo número en la lista ordenada, que es 15
15
15 es un elemento de la lista.
100
10
Último
20, que es el último número de la lista ordenada
20
El percentil 100 se define como el valor más grande de la lista, que es 20.
Por tanto, los percentiles 25, 50, 75 y 100 de la lista ordenada {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} que utilizan el método de rango más cercano son {7, 8, 15, 20 }.
Ejemplo 3
Considere una población ordenada de 11 valores de datos {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. ¿Cuáles son los percentiles 25, 50, 75 y 100 de esta lista utilizando el método de rango más cercano?
Percentil p
Número en la lista N
Rango ordinal n
Número de la lista ordenada que tiene ese rango
Valor percentil
Notas
25
11
el tercer número en la lista ordenada, que es 7
7
7 es un elemento de la lista.
50
11
el sexto número en la lista ordenada, que es 9
9
9 es un elemento de la lista.
75º
11
el noveno número en la lista ordenada, que es 15
15
15 es un elemento de la lista.
100
11
Último
20, que es el último número de la lista ordenada
20
El percentil 100 se define como el valor más grande de la lista, que es 20.
Por tanto, los percentiles 25, 50, 75 y 100 de la lista ordenada {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} que utilizan el método de rango más cercano son {7, 9, 15, 20}.
El método de interpolación lineal entre rangos más cercanos
Una alternativa al redondeo que se utiliza en muchas aplicaciones es utilizar la interpolación lineal entre rangos adyacentes.
Puntos en común entre las variantes de este método
Todas las siguientes variantes tienen lo siguiente en común. Dadas las estadísticas de la orden
buscamos una función de interpolación lineal que pase por los puntos. Esto se logra simplemente
where usa la función floor para representar la parte integral de x positivo, mientras que usa la función mod para representar su parte fraccionaria (el resto después de la división por 1). (Tenga en cuenta que, aunque en el punto final, no está definido, no tiene por qué ser porque se multiplica por.) Como podemos ver, x es la versión continua del subíndice i, linealmente interpolación v entre nodos adyacentes.
Hay dos formas en las que difieren los enfoques variantes. El primero está en la relación lineal entre el rango x, el rango porcentual y una constante que es función del tamaño de la muestra N:
Existe el requisito adicional de que el punto medio del rango, correspondiente a la mediana, ocurra en: