Función de muestra () en R

Funcion De Muestra En R



En R, obtenemos valores de muestra aleatorios de un vector o una lista usando la función sample(). Nos permite seleccionar aleatoriamente un subconjunto de datos que es útil en muchas aplicaciones estadísticas. Si la entrada es una lista en la función sample(), la salida también será una lista con el mismo número de elementos, pero con los elementos seleccionados. Este artículo demuestra la función sample() de R con la implementación que establece los diversos argumentos.

Ejemplo 1: uso de la función Sample() con el argumento de datos

La función sample() de R debe proporcionarse con los datos de muestra para generar un número aleatoriamente. Los datos de muestra son el argumento requerido de la función sample() cuyo código se proporciona a continuación:

datosX < - C ( 10 , 20 , 30 , 40 , 50 , 60 , 70 , 80 , 90 , 100 )

muestra ( datosX , 3 )

muestra ( datosX , 3 )

Aquí, primero generamos los vectores de los elementos enteros dentro de la variable 'dataX'. A continuación, llamamos a la función sample() dos veces en el código y le pasamos el vector 'dataX' que generamos previamente como argumento. El primer uso de la muestra (dataX, 3) toma una muestra aleatoria de tres elementos del vector 'dataX'. Los resultados son una permutación aleatoria de tres elementos de 'dataX'. Después de eso, usamos la muestra (a, 5) nuevamente, que toma otra muestra aleatoria independiente de tres elementos del vector 'datosX'. Esta vez, el resultado es completamente distinto al anterior.







La salida muestra los diferentes elementos al llamar dos veces a la función sample(). Tenga en cuenta que cada vez que creamos la muestra aleatoriamente, se obtienen diferentes elementos de los vectores:





Ejemplo 2: uso de la función Sample() con el argumento de reemplazo

Además, tenemos el argumento 'reemplazar' de la función sample() que toma los valores lógicos. Un elemento similar se puede seleccionar más de una vez si el elemento se muestrea con la opción de reemplazo, VERDADERO. Sin embargo, si el valor se establece en FALSO, solo puede haber una selección de cada elemento, lo que hace que los elementos se muestreen sin reemplazo.





números al azar = C ( 11 , 25 , 12 , 89 , 45 , 16 , 67 , 38 , 96 , 55 , 73 )

muestra ( números al azar , 4 , reemplazar = VERDADERO )

muestra ( números al azar , 5 , reemplazar = VERDADERO )

Aquí, primero definimos el vector con algunos valores numéricos en la variable 'random_numbers'. Después de eso, invocamos la función sample() donde se pasan los 'números_aleatorios' como argumento. El valor de '4' se especifica en la función sample() que indica que solo selecciona cuatro valores aleatorios de los vectores en 'random_numbers'.

A continuación, replace=TRUE en la función sample() especifica que cada valor se puede seleccionar más de una vez. Luego, implementamos la función sample() nuevamente, que esta vez selecciona '5' valores aleatorios de los vectores. De manera similar, establecemos el argumento de reemplazo con 'VERDADERO' como antes para las opciones de selección múltiple para cada valor.



Como podemos ver, la primera salida muestra el vector de 4 elementos seleccionados al azar del vector 'random_numbers'. Sin embargo, la siguiente salida muestra un vector de '5' elementos seleccionados al azar:

Ejemplo 3: uso de la función Sample() con el argumento de tamaño

El siguiente argumento que pasa la función sample() es el 'tamaño'. El “tamaño” es un parámetro opcional que indica el valor de las muestras a extraer. El código de la función sample() con el parámetro 'tamaño' se proporciona a continuación:

vectores < - 1 : 10

muestra ( vectores , tamaño = 5 )

Aquí, un vector numérico se define como una secuencia de números enteros del 1 al 10 en la variable 'vectores'. La función sample() se emplea luego para la selección aleatoria de elementos del vector. Como podemos ver, la función sample() toma dos argumentos. El primer argumento son los vectores de los que obtenemos la muestra. El siguiente argumento es el tamaño que se especifica con el valor de '5', lo que indica que solo hay cinco elementos para seleccionar del vector.

Por lo tanto, los elementos seleccionados se devuelven en orden aleatorio como un nuevo vector en el siguiente resultado:

Ejemplo 4: uso de la función Sample() para la lista R

Además, la función sample() se puede usar para la lista en R. Esta sección del ejemplo obtiene valores aleatorios de la lista.

R_lista < - lista ( 1 : 4 ,

913 ,

C ( 'X' , 'AAAA' , 'BIEN' ) ,

'ZZZ' ,

5 )

resultado < - R_lista [ muestra ( 1 :longitud ( R_lista ) , tamaño = 4 ) ]

resultado

Aquí, la lista de 'R_list' se define con elementos de diferentes tipos, incluido un vector de números, un solo número, un vector de caracteres, una cadena y otro número. Después de eso, creamos una variable de 'resultado' donde se invoca la función sample().

Dentro de la función sample(), establecemos la expresión “1:length(R_list)” que indica los vectores de índices a través de los cuales se muestrea. A continuación, tenemos un argumento de 'tamaño' para especificar el número de elementos que se muestrearán, que es '4'. Por lo tanto, la “Lista_R” genera tres elementos seleccionados aleatoriamente de la lista de la “Lista_R”. Dado que los elementos en la lista de 'R_list' son de diferentes tipos, los elementos resultantes en 'resultado' también pueden ser de diferentes tipos.

La salida representa la nueva lista que contiene un subconjunto aleatorio de la lista original:

Ejemplo 5: uso de la función Sample() con el argumento Prob

Además, tenemos el parámetro “prob” de la función sample(). El argumento 'prob' da la probabilidad del elemento seleccionado en el vector. Tenga en cuenta que se supone que todos los elementos tienen la misma probabilidad cuando no se utiliza el argumento 'prob'.

mis datos = C ( 31 , 99 , 5 , 24 , 72 )

muestra ( mis datos , tamaño = 10 , reemplazar = VERDADERO ,

problema = C ( 0.5 , reps ( 0.1 , 4 ) ) )

Aquí, los elementos de los vectores numéricos se denominan 'mis_datos'. En el siguiente paso, llamamos a la función sample() donde 'my_data' se pasa a 10 elementos seleccionados al azar. Luego, se define el argumento “tamaño” que especifica que el valor a seleccionar aleatoriamente debe ser de tamaño “10”. Después de eso, asignamos 'VERDADERO' al argumento 'reemplazar', lo que significa que cada elemento seleccionado se reemplaza en el vector antes de seleccionar el siguiente. El tercer argumento que se define en la función sample() es 'prob', que define la probabilidad de que se seleccione cada elemento del vector 'my_data'. La probabilidad del primer elemento se establece en '0.5'. Para los cuatro elementos vectoriales restantes, la probabilidad es “0.1”.

El siguiente resultado se recupera con la probabilidad más alta del primer elemento en los vectores como se esperaba:

Ejemplo 6: uso de la función Sample() para representar el gráfico de barras

Por último, la función sample() se usa para construir el diagrama de barras en R para visualizar la distribución de una variable categórica con una distribución de probabilidad dada.

Data de muestra = C ( 1 , 2 , 3 )

gráfico de barras ( mesa ( muestra ( Data de muestra , tamaño = 500 , reemplazar = VERDADERO , problema = C ( .30 , .60 , .10 ) ) ) )

Aquí, después de definir los 'sample_data' con el vector de un valor entero, generamos el gráfico de barras implementando la función sample(). Primero, llamamos al gráfico de barras que invoca la función table() para crear una tabla de frecuencias de la muestra resultante. Luego, especificamos la función sample() dentro de la función table() donde se extrae una muestra aleatoria de tamaño 1000 de un vector de números enteros del 1 al 3. Luego, el argumento 'prob' se usa para especificar la probabilidad de seleccionar cada número entero. .

Como podemos ver ahora, el gráfico de barras se representa a continuación con las tres barras, una para cada número entero, y la altura de las barras es relevante para el número entero que aparece en la muestra:

Conclusión

Hemos visto cómo funciona la función sample() con varios ejemplos. La función sample() se usa con diferentes argumentos donde se requieren los datos de muestra y todos los demás argumentos son opcionales y se invocan en casos específicos. Sin embargo, la función sample() es útil en el análisis estadístico o cuando se trabaja con grandes conjuntos de datos.