Este artículo proporciona una guía paso a paso sobre el uso de Tokenizers en Hugging Face Transformers.
¿Qué es un tokenizador?
Tokenizer es un concepto importante de la PNL y su principal objetivo es traducir el texto sin formato en números. Existen diversas técnicas y metodologías presentes para este propósito. Sin embargo, cabe señalar que cada técnica tiene un propósito específico.
¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?
¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?
La biblioteca tokenizer debe instalarse primero antes de usarla e importar funciones desde ella. Después de eso, entrene un modelo usando AutoTokenizer y luego proporcione la entrada para realizar la tokenización.
Hugging Face presenta tres categorías principales de tokenización que se detallan a continuación:
- Tokenizador basado en palabras
- Tokenizador basado en personajes
- Tokenizador basado en subpalabras
Aquí hay una guía paso a paso para usar Tokenizers en Transformers:
Paso 1: instalar transformadores
Para instalar transformadores, use el comando pip en el siguiente comando:
Paso 2: importar clases
De transformadores, importar tubería , y AutoModelForSequenceClassification biblioteca para realizar la clasificación:
Paso 3: Importar modelo
El ' AutoModelForSequenceClassification ”Es un método que pertenece a Auto-Class para tokenización. El desde_preentrenado() El método se utiliza para devolver la clase de modelo correcta según el tipo de modelo.
Aquí hemos proporcionado el nombre del modelo en el ' nombre del modelo ' variable:
nombre del modelo = 'distilbert-base-sin estuche-finetuned-sst-2-inglés'modelo_pre_entrenamiento =AutoModelForSequenceClassification.from_pretrained ( nombre del modelo )
Paso 4: Importar AutoTokenizer
Proporcione el siguiente comando para generar tokens pasando el ' nombre del modelo ”como argumento:
el token generado =AutoTokenizer.from_pretrained ( nombre del modelo )
Paso 5: generar token
Ahora generaremos tokens en una oración. “Me encanta la buena comida” utilizando el “ el token generado ' variable:
imprimir ( palabras )
El resultado se da de la siguiente manera:
El código de lo anterior. Google Co. se da aquí.
Conclusión
Para usar Tokenizers en Hugging Face, instale la biblioteca usando el comando pip, entrene un modelo usando AutoTokenizer y luego proporcione la entrada para realizar la tokenización. Al utilizar la tokenización, asigne pesos a las palabras en función de las cuales se secuencian para conservar el significado de la oración. Esta puntuación también determina su valor para el análisis. Este artículo es una guía detallada sobre cómo usar Tokenizers en Hugging Face Transformers.