Cómo concatenar los conjuntos de datos en Hugging Face

Como Concatenar Los Conjuntos De Datos En Hugging Face



La biblioteca de 'conjuntos de datos' de Hugging Face proporciona una manera conveniente de trabajar y manipular los conjuntos de datos para tareas de procesamiento del lenguaje natural. Una función útil que ofrece la biblioteca es concatenate_datasets() que le permite concatenar múltiples conjuntos de datos en un solo conjunto de datos. La siguiente es una breve descripción general de la función concatenate_datasets() y cómo usarla.

concatenar_conjuntos de datos()

Descripción:

La biblioteca de “conjuntos de datos” de Hugging Face proporciona la función concatenate_datasets(). Se utiliza para concatenar múltiples conjuntos de datos, combinándolos en un solo conjunto de datos a lo largo de un eje específico. Esta función es particularmente útil cuando tiene varios conjuntos de datos que comparten la misma estructura y desea fusionarlos en un conjunto de datos unificado para su posterior procesamiento y análisis.







Sintaxis:



de conjuntos de datos importar concatenar_conjuntos de datos

conjunto_de_datosconcatenados = concatenar_conjuntos de datos ( conjuntos de datos , eje = 0 , información = Ninguno )

Parámetros:

conjuntos de datos (lista de conjuntos de datos): una lista de conjuntos de datos que desea concatenar. Estos conjuntos de datos deben tener características compatibles, lo que significa que tienen el mismo esquema, nombres de columnas y tipos de datos.



eje (int, opcional, predeterminado = 0): el eje a lo largo del cual se debe realizar la concatenación. Para la mayoría de los conjuntos de datos de PNL, se utiliza el valor predeterminado de 0, lo que significa que los conjuntos de datos se concatenan verticalmente. Si establece el eje = 1, los conjuntos de datos se concatenan horizontalmente, asumiendo que tienen diferentes columnas como características.





información (datasets.DatasetInfo, opcional): la información sobre el conjunto de datos concatenado. Si no se proporciona, la información se deduce del primer conjunto de datos de la lista.

Devoluciones:

conjunto_de_datosconcatenados (Conjunto de datos): el conjunto de datos resultante después de concatenar todos los conjuntos de datos de entrada.



Ejemplo:

# Paso 1: instalar la biblioteca de conjuntos de datos

# Puedes instalarlo usando pip:

# !pip instalar conjuntos de datos

# Paso 2: Importar las bibliotecas requeridas

de conjuntos de datos importar conjunto de datos de carga , concatenar_conjuntos de datos

# Paso 3: cargue los conjuntos de datos de reseñas de películas de IMDb

# Usaremos dos conjuntos de datos de IMDb, uno para reseñas positivas

#y otro por críticas negativas.

# Cargar 2500 críticas positivas

conjunto de datos_pos = conjunto de datos de carga ( 'imdb' , dividir = 'tren[:2500]' )

# Cargar 2500 reseñas negativas

conjunto de datos_neg = conjunto de datos de carga ( 'imdb' , dividir = 'tren[-2500:]' )

# Paso 4: Concatenar los conjuntos de datos

# Concatenamos ambos conjuntos de datos a lo largo del eje = 0, como lo han hecho

el mismo esquema ( mismas características ) .

conjunto_de_datosconcatenados = concatenar_conjuntos de datos ( [ conjunto de datos_pos , conjunto de datos_neg ] )

# Paso 5: Analizar el conjunto de datos concatenados

# Para simplificar, contemos el número de positivos y negativos.

# reseñas en el conjunto de datos concatenado.

num_reseñas_positivas = suma ( 1 para etiqueta en

conjunto_de_datosconcatenados [ 'etiqueta' ] si etiqueta == 1 )

num_revisiones_negativas = suma ( 1 para etiqueta en

conjunto_de_datosconcatenados [ 'etiqueta' ] si etiqueta == 0 )

# Paso 6: Mostrar los resultados

imprimir ( 'Número de críticas positivas:' , num_reseñas_positivas )

imprimir ( 'Número de críticas negativas:' , num_revisiones_negativas )

# Paso 7: imprima algunas reseñas de ejemplo del conjunto de datos concatenados

imprimir ( ' \norte Algunos ejemplos de reseñas:' )

para i en rango ( 5 ) :

imprimir ( F 'Revisar {i + 1}: {concatenated_dataset['text'][i]}' )

Producción:

La siguiente es la explicación del programa de biblioteca de “conjuntos de datos” de Hugging Face que concatena dos conjuntos de datos de reseñas de películas de IMDb. Esto explica el propósito del programa, su uso y los pasos involucrados en el código.

Proporcionemos una explicación más detallada de cada paso del código:

# Paso 1: Importar bibliotecas requeridas

de conjuntos de datos importar conjunto de datos de carga , concatenar_conjuntos de datos

En este paso, importamos las bibliotecas necesarias para el programa. Necesitamos la función 'load_dataset' para cargar los conjuntos de datos de revisión de películas de IMDb y 'concatenate_datasets' para concatenarlos más tarde.

# Paso 2: cargue los conjuntos de datos de revisión de películas de IMDb

# Cargar 2500 críticas positivas

conjunto de datos_pos = conjunto de datos de carga ( 'imdb' , dividir = 'tren[:2500]' )

# Cargar 2500 reseñas negativas

conjunto de datos_neg = conjunto de datos de carga ( 'imdb' , dividir = 'tren[-2500:]' )

Aquí, utilizamos la función 'load_dataset' para recuperar dos subconjuntos del conjunto de datos de IMDb. El 'dataset_pos' tiene 2500 críticas positivas y el 'dataset_neg' contiene 2500 críticas negativas. Usamos el parámetro de división para especificar el rango de ejemplos a cargar, lo que nos permite seleccionar un subconjunto de todo el conjunto de datos.

# Paso 3: Concatenar los conjuntos de datos

conjunto_de_datosconcatenados = concatenar_conjuntos de datos ( [ conjunto de datos_pos , conjunto de datos_neg ] )

En este paso, concatenamos los dos subconjuntos del conjunto de datos de IMDb en un único conjunto de datos llamado 'concatenated_dataset'. Usamos la función “concatenate_datasets” y la pasamos con una lista que contiene los dos conjuntos de datos a concatenar. Dado que ambos conjuntos de datos tienen las mismas características, los concatenamos a lo largo del eje = 0, lo que significa que las filas se apilan una encima de la otra.

# Paso 4: Analizar el conjunto de datos concatenados

num_reseñas_positivas = suma ( 1 para etiqueta en

conjunto_de_datosconcatenados [ 'etiqueta' ] si etiqueta == 1 )

num_revisiones_negativas = suma ( 1 para etiqueta en

conjunto_de_datosconcatenados [ 'etiqueta' ] si etiqueta == 0 )

Aquí, realizamos un análisis simple del conjunto de datos concatenados. Usamos la lista por comprensión junto con la función 'suma' para contar la cantidad de reseñas positivas y negativas. Repetimos a través del etiqueta” del “concatenated_dataset” e incrementar los recuentos cada vez que encontremos una etiqueta positiva (1) o una etiqueta negativa (0).

# Paso 5: Mostrar los resultados

imprimir ( 'Número de críticas positivas:' , num_reseñas_positivas )

imprimir ( 'Número de críticas negativas:' , num_revisiones_negativas )

En este paso, imprimimos los resultados de nuestro análisis: la cantidad de reseñas positivas y negativas en el conjunto de datos concatenados.

# Paso 6: Imprima algunas reseñas de ejemplo

imprimir ( ' \norte Algunos ejemplos de reseñas:' )

para i en rango ( 5 ) :

imprimir ( F 'Revisar {i + 1}: {concatenated_dataset['text'][i]}' )

Finalmente, mostramos algunos ejemplos de revisiones del conjunto de datos concatenados. Recorremos los primeros cinco ejemplos del conjunto de datos e imprimimos su contenido de texto usando la columna 'texto'.

Este código muestra un ejemplo sencillo del uso de la biblioteca de 'conjuntos de datos' de Hugging Face para cargar, concatenar y analizar los conjuntos de datos de reseñas de películas de IMDb. Destaca la capacidad de la biblioteca para optimizar el manejo del conjunto de datos de PNL y muestra su potencial para crear modelos y aplicaciones de procesamiento del lenguaje natural más sofisticados.

Conclusión

El programa Python que utiliza la biblioteca de “conjuntos de datos” de Hugging Face demuestra con éxito la concatenación de dos conjuntos de datos de reseñas de películas de IMDb. Al cargar los subconjuntos de reseñas positivas y negativas, el programa los combina en un único conjunto de datos utilizando la función concatenate_datasets(). Luego realiza un análisis simple contando la cantidad de reseñas positivas y negativas en el conjunto de datos combinado.

La biblioteca de 'conjuntos de datos' simplifica el proceso de manejo y manipulación de los conjuntos de datos de PNL, lo que la convierte en una herramienta poderosa para investigadores, desarrolladores y profesionales de PNL. Con su interfaz fácil de usar y amplias funcionalidades, la biblioteca permite un preprocesamiento, exploración y transformación de datos sin esfuerzo. El programa que se muestra en esta documentación sirve como un ejemplo práctico de cómo se puede aprovechar la biblioteca para optimizar las tareas de análisis y concatenación de datos.

En escenarios de la vida real, este programa puede servir como base para tareas de procesamiento del lenguaje natural más complejas, como análisis de sentimientos, clasificación de texto y modelado de lenguaje. Al utilizar la biblioteca de 'conjuntos de datos', los investigadores y desarrolladores pueden gestionar de manera eficiente conjuntos de datos a gran escala, facilitar la experimentación y acelerar el desarrollo de modelos de PNL de última generación. En general, la biblioteca de “conjuntos de datos” de Hugging Face es un activo esencial en la búsqueda de avances en el procesamiento y la comprensión del lenguaje natural.