Cómo utilizar conjuntos de datos de caras abrazadas

Como Utilizar Conjuntos De Datos De Caras Abrazadas



La aplicabilidad y usabilidad de los modelos de Machine Learning se prueba con datos. La confiabilidad de las pruebas depende en gran medida de la cantidad y calidad de los datos sobre los que se aplican estos modelos. Es una tarea completa en sí misma crear, obtener y limpiar un conjunto de datos suficientemente grande para probar su ' Procesamiento natural del lenguaje (PNL) “Modelo de aprendizaje automático.

Hugging Face ofrece una excelente solución para esto con su biblioteca excepcionalmente grande de conjuntos de datos para elegir y encontrar el que se adapte perfectamente a sus necesidades. Aquí, le mostraremos cómo encontrar el conjunto de datos ideal y prepararlo para probar adecuadamente su modelo.







¿Cómo utilizar conjuntos de datos de caras abrazadas?

Le mostraremos cómo utilizar conjuntos de datos de caras abrazadas usando el ejemplo de ' Pequeñas historias ”Conjunto de datos de Hugging Face.



Ejemplo

El conjunto de datos TinyStories tiene más de 2 millones de filas de datos en el tren dividido y tiene más de 2 mil descargas en la plataforma Hugging Face. Lo usaremos en el código de Google Colab que se proporciona a continuación:



! pepita instalar transformadores
! pepita instalar conjuntos de datos

desde conjuntos de datos importar load_dataset

conjunto de datos = cargar_conjunto de datos ( 'roneneldan/TinyHistorias' )

TinyStories_Historia = 3
cadena_ejemplo = conjunto de datos [ 'tren' ] [ TinyStories_Historia ] [ 'texto' ]

imprimir ( cadena_ejemplo )

 
En este código, considere los pasos que se indican a continuación:





Paso 01 : El primer paso es el “ instalación ”de conjuntos de datos de transformadores.

Paso 02 : A continuación, importe el conjunto de datos requerido, ' Pequeñas historias ”en su proyecto.



Paso 03 : A continuación, cargue el conjunto de datos seleccionado usando el botón ' conjunto_carga_datos() ' función.

Paso 04 : Ahora, especificamos el número de Historia que queremos del conjunto de datos de TinyStories. Hemos especificado el número 03 en nuestro ejemplo de código.

Paso 05 : Por último, usaremos el método “print()” para mostrar el resultado.

Producción

 

Nota: El código y el resultado también se pueden ver directamente en nuestro Google Colab. .

Conclusión

Conjuntos de datos de caras abrazadas ”hacen que sea increíblemente eficiente para los usuarios probar sus modelos de aprendizaje automático mientras importan directamente grandes conjuntos de datos desde su biblioteca en línea. Como resultado, la aplicación de algoritmos de PNL se ha vuelto más fácil y rápida a medida que los programadores pueden probar sus proyectos con un conjunto de datos que tiene tanto calidad como cantidad.