Pandas unirse vs fusionar

Pandas Unirse Vs Fusionar



'Pandas' es una herramienta de alto rendimiento para el entorno de Python. Es un código fuente “abierto” para el análisis de datos. Los métodos pandas join y pandas merge se utilizan para unir los dos marcos de datos en un solo marco de datos. En ambos métodos de pandas, la diferencia es que la función de 'unión' de pandas une el marco de datos usando un índice. Mientras que la función de 'combinar' de pandas se une al marco de datos utilizando el índice y el método de columna en el que podemos seleccionar la columna deseada nosotros mismos. El método de combinación de pandas se usa principalmente en comparación con el método de unión de pandas. El software que usaremos para la implementación es el software “spyder”, que se encuentra en el entorno python y nos brindará beneficios para la implementación del código del método pandas join() y la función del método pandas merge().

Sintaxis del método Join() de Pandas

“df1. unirse ( df2 )

El 'df' en la sintaxis anterior es la abreviatura del 'marco de datos'. Hay dos marcos de datos en la sintaxis con la función de 'unión de puntos', que es para llamar al método. Es el método pandas de unir dos marcos de datos. Funciona usando el índice para combinar los marcos de datos en uno solo.







Sintaxis del método Pandas Merge()

“df1. unir ( df2 , en = 'nombre_columna' )

La sintaxis del método de combinación de pandas tiene dos marcos de datos como 'df1' y 'df2'. La función de 'fusión de puntos' está llamando al método de unir ambos marcos de datos con la apariencia de columnas invertidas.



Cubriremos las siguientes formas de combinar dos marcos de datos para usar los métodos de fusión de panda y unión de pandas:



  • Superposición del método Pandas Join.
  • Los pandas se unen al método mediante un restablecimiento de índice.
  • Método de fusión de pandas (columna 'izquierda y derecha').
  • Método de fusión de pandas explícito.

Creación de marcos de datos para la implementación del método Pandas Merge y Pandas Join

Primero, tenemos que crear un marco de datos. Para eso, usaremos la herramienta 'spyder'. Después de abrirlo, comience a escribir el código. Importe pandas como 'pd' para la asociación de bibliotecas de pandas. Tenemos las variables del marco de datos como 'x', 'y', 'p' y 'q correspondientemente y 'a' con valores '1' y 'b' con el valor asignado como '2'.





La salida es un “df” creado con los valores asignados. Podemos hacerlo tan grande como los datos.



Crear otro marco de datos

Tenemos que hacer otro marco de datos, para comprender claramente los métodos de unión de pandas y fusión de pandas. Aquí, hemos creado 'df' igual que el 'df' anterior, solo que los valores de las variables asignadas son diferentes. Tenemos “h”, “j”, “s” y “d”, mientras que asignamos valores “b” con el valor “8” e “Y” con el valor “3”.

La salida muestra un simple 'df' creado.

Ejemplo # 01: Método de unión de pandas (superposición)

Ahora, veremos cómo unir dos marcos de datos con el método de unión de pandas. Para este método, podemos elegir la columna de su elección en la que queremos trabajar desde el marco de datos. Hemos tomado el ejemplo con la columna superpuesta 'izquierda' de 'df', por lo que podemos arreglar esto con el 'sufijo' para superar la superposición de datos. Aquí, las variables utilizadas son “x”, “z”, “v”, “d”. “p”, “o”, “l” e “y” con los valores asignados como “3”, “6”, “7” y “9”. El '.join' llama al método, con la alineación establecida en combinación izquierda con el sufijo 'df' derecho. ”. El 'sufijo' utilizado en el código se debe a que en el marco de datos hay dos columnas que tienen el mismo nombre que es 'clave' y que no se superpondrán a los datos.

La salida no muestra datos superpuestos con el método de unir dos 'df' usando el método de unión de pandas.

Ejemplo n.º 02: método de unión de pandas mediante un restablecimiento de índice

En este ejemplo, especificaremos por separado la columna con el parámetro 'on' para usar como la 'clave' en el método de unión que ayuda a unir los dos marcos de datos. lo combinado se hace con este parámetro. Además, el índice de uno de los dos “df” debe ser similar para unirlos. Los tipos de datos similares o los datos utilizados para el mismo propósito pueden estar juntos para su procesamiento. Esto usará el índice todavía, usando desde la derecha. Las variables son la 's', 't', 'u', 'v', 'n', 'w', 'k' y 'q'. Los valores asignados son “3”, “6”, “7” y “9”. El 'índice de punto de reinicio' es un método de pandas para restablecer el índice del 'df'. El índice de reinicio establece todos los números enteros de su lista de marcos de datos desde 0 hasta que los datos del marco de datos se alarguen.

Aquí está la salida que se muestra con el método de unión de 'clave' de índice de pandas.

Ejemplo # 03: Método de fusión de Pandas (columna 'izquierda y derecha')

El método de fusión realiza una operación similar al método de unión de pandas. Ambos métodos son para combinar datos en un marco de datos similar. El método de combinación es más versátil y requiere especificar la clave. También podemos especificarlo en las columnas izquierda y derecha según el trabajo de su marco de datos. Las variables en el código son “s”, “d”, “g”, “f”, “k”, “j”, “b” y “q”. los valores asignados son “9”, “5”, “6” y “7”. La implementación externa de 'unión' se realiza en ambos 'df' mediante el uso del parámetro 'cómo' de la función del método de combinación de pandas.

El resultado que vemos muestra los datos combinados de los dos marcos de datos. El 'NaN' representa 'no un número', lo que significa que donde no hay un número asignado en los datos, el 'NaN' se muestra allí.

Ejemplo # 04: El Método de Fusión Explícitamente

Aquí, en este ejemplo, el método de combinación es la destrucción del índice y el valor del índice no se asume en el marco de datos. Haremos este método de acuerdo con el trabajo que se necesita hacer, donde la especificación explícita es el seguimiento. Fusionará los datos en función de un índice izquierdo o índice derecho con el parámetro. Las variables en este marco de datos son 't', 'r', 'I', 'u', 'h', 'o', 'e' y 'e'. Los valores asignados son “2”, “4”, “6” y “4”. El ejemplo anterior del método de combinación de pandas con la selección de columnas según la necesidad es el método más presentable y valioso para unir los dos marcos de datos. Comprobando al final de la línea de código si la clave de combinación es única en el conjunto de datos.

En el siguiente resultado, el índice no se muestra sin el índice, pero la función se realiza en función del índice derecho e izquierdo.

Conclusión

Los métodos merge() y join() son métodos muy convenientes y efectivos. Ambas funciones se utilizan para unir los dos marcos de datos separados en el mismo marco de datos, pero tienen un uso diferente según el caso. En este artículo, hemos aprendido las diferencias clave entre el método de unión y fusión de pandas. Después de hacer los ejemplos y comprender el método de unión de pandas, lo concluiremos con el conocimiento de que, si queremos una unión más flexible y al estilo de la base de datos, es preferible utilizar el método de fusión de pandas. Por otro lado, si queremos hacer que el marco de datos se combine con el índice de manera extensiva, podemos ir con la función del método pandas join().