Cómo instalar Tesseract en Windows

Como Instalar Tesseract En Windows



Tesseract es una herramienta de reconocimiento de texto de código abierto disponible gratuitamente, también conocida como OCR (reconocimiento óptico de caracteres). Se utiliza principalmente para identificar y extraer texto de imágenes. Leerá el texto de los datos de la imagen y escribirá la salida en un nuevo archivo .txt. Tesseract también funciona con Python, ya que se usa principalmente para reconocer la escritura a mano de las imágenes. Está utilizando el modelo LSTR (memoria a largo plazo a corto plazo). Tesseract funciona bajo la licencia Apache 2.0.

Elaboraremos el método para instalar Tesseract en Windows en este blog.







¡Entonces empecemos!



¿Cómo instalar Tesseract en Windows?

El Tesseract es una herramienta de línea de comandos que se utiliza para la extracción de texto de las imágenes. Para instalar Tesseract en Windows, debe seguir las instrucciones que se indican a continuación.



Paso 1: Descargue el instalador de Tesseract





En primer lugar, navegue hasta el enlace proporcionado a continuación y descargue el instalador de Tesseract de acuerdo con las especificaciones de su sistema:

https: // github.com / UB-Mannheim / teseracto / semana

 



Paso 2: Ejecute el instalador de Tesseract

Visita el ' Descargas ” directorio donde se descarga el instalador de Tesseract. Para instalar Tesseract en Windows, ejecute el instalador de Tesseract haciendo doble clic sobre él:

Paso 3: Seleccionar idioma

El instalador de Tesseract admite muchos idiomas. Para interactuar con la interfaz de usuario del instalador, elija ' inglés ” como su idioma y haga clic en “ OK ”:

Paso 4: Instalar Tesseract

Al hacerlo, el asistente de configuración de Tesseract OCR aparecerá en la pantalla. Para comenzar la instalación de Tesseract, presione el botón ' próximo ' botón:

Para aceptar el “ Acuerdo de licencia ', haga clic en el ' Estoy de acuerdo ' botón:

Selecciona el ' Instalar para cualquier persona que utilice este equipo opción ” y presione el botón “ próximo ' botón:

Si desea agregar datos de script o incluir otro idioma, marque sus respectivas casillas de verificación y presione el botón ' próximo ' botón. Como no queremos ningún script o lenguaje de datos adicional por lo tanto, continuaremos con las opciones seleccionadas por defecto:

Elija la ubicación de instalación y haga clic en el botón “ próximo ' botón:

Si no desea crear un acceso directo en el menú Inicio, marque el ' No crees atajos ” casilla de verificación y presione el botón “ Instalar ' botón:

Después de eso, se iniciará la instalación de Tesseract. Espere hasta que la instalación se complete y presione el botón ' próximo ' botón:

Por último, haga clic en el botón “ Finalizar ' botón:

Paso 5: establecer la variable de entorno

Después de la instalación, debe configurar la variable de entorno de Tesseract. Para hacerlo, primero visite el directorio donde instaló el Tesseract y copie la ruta desde el “ Dirección ' bar:

Haz una búsqueda de “ Variables de entorno ' en el ' Puesta en marcha ” menú y abrir “ Editar las variables de entorno del sistema. ”:

Dentro de la configuración, navegue hasta el ' Avanzado ” menú de configuración y haga clic en el “ Variables de entorno ' botón:

Elegir la ' Sendero ” Variable de la “ Variables del sistema ” y presione el botón “ Editar ' botón:

Después ' Editar variable de entorno Aparecerá una ventana en la pantalla. Presione el ' Nuevo y pegue aquí la ruta del directorio de instalación de Tesseract copiada. Por último, haga clic en el botón “ OK ' botón:

Paso 6: Verificar la instalación de Tesseract

Para verificar la instalación de Tesseract, abra el símbolo del sistema de Windows buscando ' Símbolo del sistema ' en el ' Puesta en marcha ” menú:

Echa un vistazo a la versión de Tesseract usando el comando proporcionado:

> teseracto --versión

 

El resultado a continuación indica que hemos instalado con éxito la versión de Tesseract ' v5.2.0 ” en Windows:

Avancemos para ver cómo usar Tesseract en Windows.

¿Cómo usar Tesseract en Windows?

El Tesseract se usa para leer escritura a mano o extraer texto de imágenes. Vamos a ver cómo funciona:

Paso 1: Seleccionar imagen

Seleccione la imagen de la que desea extraer el texto. Como hemos elegido “ 1.png ”:

Paso 2: extraer texto de la imagen

Una vez abierto el CMD. Utilice el “ discos compactos ” comando para cambiar el directorio donde se almacena la imagen. Luego ejecute el “ teseracto Comando y defina el nombre del archivo de imagen como hemos especificado. 1.png ”. Los ' Texto El parámetro ” muestra el nombre del archivo de salida:

> discos compactos C:\Usuarios\anuma\OneDrive\Imágenes\Imágenes guardadas
> teseracto 1 .png 'Texto'

 

Paso 3: Verificar la extracción de texto

Para verificar la extracción de texto, navegue hasta el directorio donde se encuentra el archivo de imagen. Puede ver que el archivo de salida “ Texto ” también se guarda aquí. Haga doble clic en el archivo de salida para verificar si el teseracto ha extraído el texto de la imagen o no:

Puede ver que hemos extraído con éxito el texto usando la herramienta de línea de comando Tesseract:

Hemos demostrado la técnica para instalar y usar Tesseract en Windows.

Conclusión

Para instalar Tesseract en Windows, es necesario descargar el instalador de Tesseract. Para ello, siga la primera sesión de este artículo. A continuación, configure la variable de entorno Path para usar y acceder a Tesseract desde el símbolo del sistema de Windows. Luego, seleccione el archivo de imagen y use el botón “ teseracto ” para reconocer y extraer el texto de la imagen. Aquí, ha aprendido a instalar y usar el “ teseracto ” en las ventanas.