Método de filtro de cara abrazada ()

Metodo De Filtro De Cara Abrazada



Hugging Face tiene varios modelos y conjuntos de datos de procesamiento del lenguaje natural (NLP). Estos enormes conjuntos de datos contienen mucha información que ayuda a entrenar el modelo con precisión. Sin embargo, a veces no necesitamos todo el conjunto de datos porque solo necesitamos una pequeña parte para satisfacer nuestras necesidades actuales. Si queremos utilizar el mismo conjunto de datos habitual con toda la información, el entrenamiento y la optimización del modelo llevan mucho tiempo, lo que es una pérdida de tiempo.

Entonces, necesitamos algún tipo de método o paquete que pueda extraer la información relevante de los conjuntos de datos. En lenguaje sencillo, podemos decir que necesitamos una opción de filtro adicional para filtrar los conjuntos de datos según nuestros requisitos.

Hugging Face ofrece diferentes opciones para filtrar los conjuntos de datos, lo que ayuda a los usuarios a crear conjuntos de datos personalizados que solo contienen ejemplos o información que cumple con condiciones específicas.







Método Seleccionar()

Este método funciona con una lista de índices, lo que significa que tenemos que definir una lista. Dentro de esa lista, tenemos que mencionar todos los valores de índice de las filas que queremos extraer. Pero este método solo funciona para conjuntos de datos pequeños y no para conjuntos de datos grandes, ya que no podemos ver el conjunto de datos completo si está en GB (giga bytes) o TB (tera bytes).



Ejemplo :

nuevo_conjunto_de_datos = conjunto de datos. seleccionar ( [ 0 , 11 , 21 , 45 , 50 , 55 ] )

imprimir ( solo ( nuevo_conjunto_de_datos ) )

En este ejemplo, utilizamos el método 'seleccionar' para filtrar la información requerida del conjunto de datos.



Método de filtro ()

El método filter() supera los problemas del proceso select() ya que no existe una condición específica. El método filter() devuelve todas las filas que coinciden con una situación o condición particular.





Ejemplo: Guardamos este programa Python con el nombre “test.py”.

de conjuntos de datos importar conjunto de datos de carga

# Paso 1: cargar el conjunto de datos
conjunto de datos = conjunto de datos de carga ( 'imdb' )

# Paso 2: Definir la función de filtrado
definición filtro personalizado ( ejemplo ) :
    '''
Una función de filtrado personalizada para retener ejemplos con resultados positivos.
sentimiento (etiqueta == 1).
    '''

    devolver ejemplo [ 'etiqueta' ] == 1

# Paso 3: aplique el filtro para crear un nuevo conjunto de datos filtrado
conjunto de datos filtrados = conjunto de datos. filtrar ( filtro personalizado )

# Paso 4: verifique los nombres de las columnas disponibles en el conjunto de datos filtrado
imprimir ( 'Columnas disponibles en el conjunto de datos filtrado:' ,
conjunto_datos_filtrado. nombres_columna )

# Paso 5: Acceda a la información del conjunto de datos filtrado
ejemplos_filtrados = conjunto de datos filtrados [ 'tren' ]
núm_ejemplos_filtrados = solo ( ejemplos_filtrados )

# Paso 6: Imprima el número total de ejemplos filtrados
imprimir ( 'Total de ejemplos filtrados:' , núm_ejemplos_filtrados )

Producción:



Explicación:

Línea 1: importamos el paquete load_dataset requerido de los conjuntos de datos.

Línea 4: Cargamos el conjunto de datos “imdb” usando load_dataset.

Líneas 7 a 12: Definimos la función de filtrado personalizado filtro personalizado para mantener los ejemplos con sentimiento positivo (etiqueta == 1). Esta función devuelve solo aquellas filas cuyo valor de etiqueta es 1.

Línea 15: esta línea muestra que el conjunto de datos tiene los datos de revisión de películas 'imdb'. Ahora aplicamos la función de filtro a esta base de datos para separar las reseñas positivas de la base de datos que se almacena en el 'conjunto de datos filtrados'.

Líneas 18 y 19: ahora, verificamos qué nombres de columnas están disponibles en filtered_dataset. Entonces, el código 'filtered_dataset.column_names' proporciona los detalles de nuestros requisitos.

Líneas 22 y 23: En estas líneas, filtramos la columna 'tren' del filtered_dataset e imprimimos el número total (longitud) de la columna del tren.

Línea 26: En esta última línea, imprimimos el resultado de la línea número 23.

Filtro() con índices

El método filter() también se puede utilizar con índices como se ve en el modo select(). Pero para eso, debemos mencionar que la palabra clave “with_indices=true” debe especificarse fuera del método filter() como se muestra en el siguiente ejemplo:

conjunto_de_datos_impar = conjunto de datos. filtrar ( lambda ejemplo , identificación: identificación% 2 != 0 , con_índices = Verdadero )

imprimir ( solo ( conjunto_de_datos_impar ) )

En este ejemplo, utilizamos el método filter() para filtrar la información requerida del conjunto de datos, incluidas solo aquellas filas que son impares.

Los detalles completos de cada parámetro del método filter() se pueden encontrar en este enlace .

Conclusión

La biblioteca de conjuntos de datos de Hugging Face proporciona un conjunto de herramientas potente y fácil de usar para trabajar de manera eficiente con varios conjuntos de datos, especialmente en el contexto del procesamiento del lenguaje natural (PLN) y tareas de aprendizaje automático. La función filter() presentada en el programa permite a los investigadores y profesionales extraer subconjuntos de datos relevantes definiendo los criterios de filtrado definidos por el usuario. Con esta funcionalidad, los usuarios pueden crear sin esfuerzo nuevos conjuntos de datos que cumplan condiciones específicas, como mantener un sentimiento positivo en las reseñas de películas o extraer datos de texto específicos.

Esta demostración paso a paso ilustra lo fácil que es cargar un conjunto de datos, aplicar las funciones de filtro personalizadas y acceder a los datos filtrados. Además, la flexibilidad de los parámetros de la función permite operaciones de filtrado personalizadas, incluida la compatibilidad con procesamiento múltiple para grandes conjuntos de datos. Con la biblioteca de conjuntos de datos de Hugging Face, los usuarios pueden optimizar sus datos.