pandas qcut

Pandas Qcut



“Python” contiene muchas bibliotecas, y cuando queremos analizar o manipular datos, utilizamos estas bibliotecas de “Python”, y los “pandas” también son la biblioteca. La biblioteca 'pandas' se usa en el campo de las ciencias de datos, y también se usa en actividades de aprendizaje automático. El marco de datos 'pandas' nos ayuda a guardar los datos. En 'pandas', cuando queremos agrupar datos, utilizamos el método 'qcut ()'. El método “qcut()” se utiliza para convertir características continuas en categóricas. Podemos agregar diferentes tipos de parámetros en este método “qcut()” para obtener diferentes tipos de resultados. Este tutorial trata sobre el método “qcut()”, y aquí explicaremos en detalle el método “qcut()”. Le explicaremos cómo hacemos el agrupamiento de datos con la ayuda de la función 'qcut ()' en 'pandas' en este tutorial'.

Ejemplo # 01

Aplicaremos el método 'qcut ()' en estos códigos, y haremos estos códigos en la aplicación 'Spyder'. Cuando tenemos que trabajar con los “pandas”, solo podemos acceder a sus funciones cuando importamos la biblioteca “pandas” a nuestros códigos. Primero, ponemos 'importar' y luego escribimos 'pandas como pd'. Ahora, tenemos que aplicar el método “qcut()”, entonces para esto, estamos creando el DataFrame aquí. Construimos 'Random_df' que contiene 'R_ID, R_name y R_age' como sus columnas, y también en 'R_ID', colocamos 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 y R_81”. Luego agregamos 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob y Harper' en la columna 'R_name'. Después de esto, insertamos '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 y 40' en la columna 'R_age'. Ahora, usamos 'print()', que contiene 'Random_df', y ayudará a representar el DataFrame 'Random_df'. Acabamos de crear el DataFrame y aún no aplicamos el método 'qcut()'.








El icono “Ejecutar” nos ayuda a ejecutar los códigos. Cuando presionamos este ícono de 'ejecutar', el resultado de este código se muestra en la terminal de la aplicación 'Spyder'. El DataFarm “Random_df” se muestra como resultado del código que hemos escrito en este ejemplo. Ahora, aplicaremos el método “qcut()” y también mostraremos su resultado.




Estamos agrupando los datos aquí. Estamos clasificando la columna 'R_age' y colocando el método 'pd.qcut()', que es el método de 'pandas' que ayuda en la clasificación de datos. En este método, insertamos el nombre del DataFrame y también el nombre de la columna sobre la que queremos aplicar este método “qcut()”. También establecemos el valor de 'q' en '5', y se usa para dividir los datos de la columna 'R_age' en cinco cuantiles iguales. Agregamos el método 'qcut ()' en 'print ()', por lo que también mostrará los datos de clasificación en el terminal.




Aquí, se muestran los datos después del agrupamiento y se divide el 'R_age' en cinco cuantiles. También muestra las categorías en las que se agrupan los datos de la columna 'R_age'. La serie categórica representa los contenedores 'R_age'.






También podemos ajustar la etiqueta para estos contenedores. Agregamos estas etiquetas de contenedores para que sean fáciles de interpretar. Agregamos una columna 'R_age_qcut' al 'Random_df' en el que agregamos las etiquetas de estos contenedores. Nuevamente utilizamos el método “pd.qcut()” para etiquetarlos. Agregamos las etiquetas que son 'pequeño, no tan pequeño, mediocre, alto y alto'. Luego volvemos a poner “Random_df” en “print()”.


Todos los contenedores están etiquetados y presentados en este resultado. La columna 'R_age_qcut' se muestra en este marco de datos en el que se muestran los contenedores etiquetados.



Ejemplo # 02

Para crear el DataFrame, primero agregamos 'grados', que son '3, 6, 8, 7, 2, 5, 1, 9, 4, 7 y 8'. Luego, agregamos los nombres de los estudiantes en 'estudiantes', que son 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard y Alexander'. Luego generamos el “Grades_df” donde hemos agregado el método “pd.DataFrame()”, y en este método, ponemos “Std_name”, que aparecerá como el nombre de la columna, y le asignamos valores de “students”. Luego establecemos 'Students_grades' como el nombre de la columna del DataFrame y también asignamos 'grades' aquí, que hemos creado anteriormente. Después de esto, tenemos el “print()” en el que agregamos “Grades_df” para imprimir.


El DataFrame que contiene dos columnas se muestra en el resultado de este código. Ahora, aplicaremos el método 'qcut()' a la columna 'Students_grades' para agrupar los datos de los valores de esta columna.


Agregamos una nueva columna 'calificación' aquí en la que hemos aplicado 'pd.qcut()' a la columna 'Students_grades', y también, hemos usado '4' para el valor de la 'q', por lo que cortará los datos en cuatro cuantiles iguales. Después de esto, especificamos estos cuantiles aquí colocando valores en 'q', que son '0, .4, .8 y 1'. Luego, también mostramos esto. Ahora, estamos etiquetando estos datos agrupados, y las etiquetas que agregamos aquí son 'D, C, A y B' y también se almacenan en la columna 'calificación'.


Aquí, los datos después del agrupamiento se muestran aquí en la columna 'calificación' y divide los datos de la columna 'Calificaciones_estudiantes' en cuatro cuantiles iguales.


El DataFrame que obtenemos después de aplicar el método “qcut()” y especificar los cuantiles se muestra en este resultado.


Ahora, después de agregar las etiquetas a estos contenedores, también se representan en este resultado en la columna 'calificación', y puede ver que asigna las etiquetas de acuerdo con los valores del contenedor.

Ejemplo # 03

También podemos aplicar el método “qcut()” a los datos del archivo CSV. Para esto, primero leemos los datos del archivo CSV con la ayuda del método “read_csv()”. Estamos leyendo los datos del archivo 'office2.csv', y luego los datos de este archivo se colocan en 'Office_df'. Este método convertirá los datos del archivo 'office2' en DataFrame y los guardará en 'Office_df'. Luego, también mostramos estos datos poniendo el “Office_df” en el “print()”. Luego de esto, agregamos una nueva columna llamada “Units_qcut”, a la cual aplicamos la función “pd.qcut()” a la columna “Units”.

Además, establecemos el valor de la variable 'q' en '5', lo que dividirá los datos en cinco cuantiles iguales. Los datos, después de dividirse en 5 cuantiles iguales, se almacenan en la columna 'Units_qcut', y esta columna también se agrega a 'Office_df' y 'Office_df' se representa aquí nuevamente usando 'print()'. Ahora estamos etiquetando estos datos agrupados, agregando las etiquetas en el método 'qcut()', que son  'Unidad 1, Unidad 2, Unidad 3, Unidad 4 y Unidad 5' y almacenándolos en la columna 'Etiquetas' también . También renderizamos este DataFrame en el que se agrega la columna 'Etiquetas'.


Los datos que obtenemos después de leer el archivo 'office2.csv' se representan aquí en forma de DataFrame. Luego se agrega la columna 'Units_qcut', en la que se muestran los valores agrupados de la columna 'Unidades'. Después de esto, también se agrega la columna 'Etiquetas', que asigna las etiquetas a estos valores agrupados. Todo esto se hace usando el método “qcut()” en “pandas”.

Conclusión

Hemos explicado el método 'qcut ()' en detalle en este tutorial que ayuda a agrupar los datos en 'pandas'. Hemos discutido que los datos se agrupan de acuerdo con el valor cuantil 'q' que hemos agregado en el método 'qcut ()', y también hemos ajustado las etiquetas a estos datos agrupados. Hemos explorado el método 'qcut()' y hemos aplicado este método a las columnas del DataFrame, y también hemos aplicado este método 'qcut()' a los datos del archivo CSV después de leer los archivos CSV. Hemos presentado el resultado de todos los códigos en este tutorial para explicar y mostrar claramente el resultado del método 'qcut()'.