¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

El procesamiento del lenguaje natural (PLN) opera en la forma sin procesar de los datos. Los modelos de aprendizaje automático se entrenan con datos complejos, pero no pueden comprender los datos sin procesar. Esta forma cruda de datos debe tener algún valor numérico asociado. Este valor determina el valor y la importancia de la palabra en los datos y en base a esto se realizan los cálculos.

Este artículo proporciona una guía paso a paso sobre el uso de Tokenizers en Hugging Face Transformers.

¿Qué es un tokenizador?

Tokenizer es un concepto importante de la PNL y su principal objetivo es traducir el texto sin formato en números. Existen diversas técnicas y metodologías presentes para este propósito. Sin embargo, cabe señalar que cada técnica tiene un propósito específico.
¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

La biblioteca tokenizer debe instalarse primero antes de usarla e importar funciones desde ella. Después de eso, entrene un modelo usando AutoTokenizer y luego proporcione la entrada para realizar la tokenización.

Hugging Face presenta tres categorías principales de tokenización que se detallan a continuación:

Tokenizador basado en palabras
Tokenizador basado en personajes
Tokenizador basado en subpalabras

Aquí hay una guía paso a paso para usar Tokenizers en Transformers:

Paso 1: instalar transformadores
Para instalar transformadores, use el comando pip en el siguiente comando:

! pepita instalar transformadores

Paso 2: importar clases
De transformadores, importar tubería , y AutoModelForSequenceClassification biblioteca para realizar la clasificación:

desde la tubería de importación de transformadores, AutoModelForSequenceClassification

Paso 3: Importar modelo
El ' AutoModelForSequenceClassification ”Es un método que pertenece a Auto-Class para tokenización. El desde_preentrenado() El método se utiliza para devolver la clase de modelo correcta según el tipo de modelo.

Aquí hemos proporcionado el nombre del modelo en el ' nombre del modelo ' variable:

nombre del modelo = 'distilbert-base-sin estuche-finetuned-sst-2-inglés'
modelo_pre_entrenamiento =AutoModelForSequenceClassification.from_pretrained ( nombre del modelo )

Paso 4: Importar AutoTokenizer
Proporcione el siguiente comando para generar tokens pasando el ' nombre del modelo ”como argumento:

desde transformadores importa AutoTokenizer

el token generado =AutoTokenizer.from_pretrained ( nombre del modelo )

Paso 5: generar token
Ahora generaremos tokens en una oración. “Me encanta la buena comida” utilizando el “ el token generado ' variable:

palabras =generar token ( 'Me encanta la buena comida' )
imprimir ( palabras )

El resultado se da de la siguiente manera:

El código de lo anterior. Google Co. se da aquí.

Conclusión

Para usar Tokenizers en Hugging Face, instale la biblioteca usando el comando pip, entrene un modelo usando AutoTokenizer y luego proporcione la entrada para realizar la tokenización. Al utilizar la tokenización, asigne pesos a las palabras en función de las cuales se secuencian para conservar el significado de la oración. Esta puntuación también determina su valor para el análisis. Este artículo es una guía detallada sobre cómo usar Tokenizers en Hugging Face Transformers.

¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

¿Qué es un tokenizador?

¿Cómo utilizar tokenizadores para abrazar a los transformadores faciales?

Conclusión

Categoría

Entradas Populares

Cómo obtener la marca de tiempo actual en Java

¿Cómo obtener la identificación del botón en el que se hizo clic usando JavaScript/jQuery?

Introducción a capacitores, capacitancia y carga

Cuente las combinaciones distintas en varias columnas en SQL

¿Cómo hacer que Git ignore los cambios en el modo de archivo (chmod)?

Cómo encontrar ID de usuario/servidor/mensaje – Discord

¿Qué es fw-bold en Bootstrap?

Concatenación de cadenas PostgreSQL

Uso de CSS para un efecto de aparición gradual en la carga de la página

¿Cómo usar '.gitignore' para ignorar archivos sin preparar en Git?

¿Cómo implementar la autopregunta con la cadena de búsqueda?

Cómo configurar una tarea cron en Linux

Cómo hacer escaleras de caracol en Minecraft

Cómo cambiar el color de tu nombre en Discord

¿Cómo agregar estado de memoria en cadena usando LangChain?

¿Cuál es el propósito de Table Cell en Tailwind?

Cómo solicitar a Bash la entrada del usuario

Limpiar el marco de datos en Pandas

Supervise la información de Raspberry Pi a través del móvil

Cómo cambiar el color de fondo en Google Docs