¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

Como Utilizar Tokenizadores Para Abrazar A Los Transformadores Faciales



El procesamiento del lenguaje natural (PLN) opera en la forma sin procesar de los datos. Los modelos de aprendizaje automático se entrenan con datos complejos, pero no pueden comprender los datos sin procesar. Esta forma cruda de datos debe tener algún valor numérico asociado. Este valor determina el valor y la importancia de la palabra en los datos y en base a esto se realizan los cálculos.

Este artículo proporciona una guía paso a paso sobre el uso de Tokenizers en Hugging Face Transformers.

¿Qué es un tokenizador?

Tokenizer es un concepto importante de la PNL y su principal objetivo es traducir el texto sin formato en números. Existen diversas técnicas y metodologías presentes para este propósito. Sin embargo, cabe señalar que cada técnica tiene un propósito específico.
¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?







¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

La biblioteca tokenizer debe instalarse primero antes de usarla e importar funciones desde ella. Después de eso, entrene un modelo usando AutoTokenizer y luego proporcione la entrada para realizar la tokenización.



Hugging Face presenta tres categorías principales de tokenización que se detallan a continuación:



  • Tokenizador basado en palabras
  • Tokenizador basado en personajes
  • Tokenizador basado en subpalabras

Aquí hay una guía paso a paso para usar Tokenizers en Transformers:





Paso 1: instalar transformadores
Para instalar transformadores, use el comando pip en el siguiente comando:

! pepita instalar transformadores



Paso 2: importar clases
De transformadores, importar tubería , y AutoModelForSequenceClassification biblioteca para realizar la clasificación:

desde la tubería de importación de transformadores, AutoModelForSequenceClassification

Paso 3: Importar modelo
El ' AutoModelForSequenceClassification ”Es un método que pertenece a Auto-Class para tokenización. El desde_preentrenado() El método se utiliza para devolver la clase de modelo correcta según el tipo de modelo.

Aquí hemos proporcionado el nombre del modelo en el ' nombre del modelo ' variable:

nombre del modelo = 'distilbert-base-sin estuche-finetuned-sst-2-inglés'
modelo_pre_entrenamiento =AutoModelForSequenceClassification.from_pretrained ( nombre del modelo )

Paso 4: Importar AutoTokenizer
Proporcione el siguiente comando para generar tokens pasando el ' nombre del modelo ”como argumento:

desde transformadores importa AutoTokenizer

el token generado =AutoTokenizer.from_pretrained ( nombre del modelo )

Paso 5: generar token
Ahora generaremos tokens en una oración. “Me encanta la buena comida” utilizando el “ el token generado ' variable:

palabras =generar token ( 'Me encanta la buena comida' )
imprimir ( palabras )

El resultado se da de la siguiente manera:

El código de lo anterior. Google Co. se da aquí.

Conclusión

Para usar Tokenizers en Hugging Face, instale la biblioteca usando el comando pip, entrene un modelo usando AutoTokenizer y luego proporcione la entrada para realizar la tokenización. Al utilizar la tokenización, asigne pesos a las palabras en función de las cuales se secuencian para conservar el significado de la oración. Esta puntuación también determina su valor para el análisis. Este artículo es una guía detallada sobre cómo usar Tokenizers en Hugging Face Transformers.