¿Qué son los rastreadores de lista en AWS?

Que Son Los Rastreadores De Lista En Aws



Los datos han tenido una gran influencia en el crecimiento de las empresas, ya que muchas de ellas dependen en gran medida de ellos para obtener información a través de ellos. Los metadatos son los datos sobre los datos que explican los datos para que los datos se puedan usar para obtener la máxima información de ellos. Los metadatos contienen información como la ubicación de los datos, la estructura del esquema, el tipo de datos o cosas como el propietario de los datos.

Esta guía explicará los rastreadores de listas en AWS.

¿Qué son los rastreadores de lista en AWS?

Un Crawler es un componente de AWS Glue que se utiliza para rastrear la ubicación de los datos e infiere esa información al catálogo. La información que recopila un rastreador puede ser tipos de datos, estructura de esquema o, en otras palabras, recopila metadatos. El rastreador también se puede usar con el catálogo de datos que se usa cuando los datos se mueven dentro del ecosistema de Glue mientras se usan trabajos de ETL, etc.









¿Qué es el servicio de pegamento de Amazon?

AWS Glue es un servicio de transformación y carga de Amazon Extract que permite al usuario organizar, ubicar, mover y transformar todos los datos. AWS Glue no tiene servidor, ya que el usuario no necesita aprovisionar ni configurar los servidores ni administrar los ciclos de vida. El catálogo de datos y los rastreadores son los componentes de AWS Glue que actúa como repositorio de metadatos persistentes:







¿Cómo crear un rastreador en AWS?

Para crear un rastreador en AWS, visite el servicio AWS Glue desde la Consola de administración de AWS:



Dirígete al “ rastreadores ” haciendo clic en su nombre en el panel izquierdo:

Clickea en el ' Crear rastreador ' botón:

Escriba el nombre del rastreador y haga clic en ' Próximo ' botón:

Seleccione la opción de mapeo para tablas de pegamento y haga clic en el botón “ Agregar una fuente botón ” para obtener datos de:

Seleccione el servicio S3 y haga clic en el botón “ Explorar S3 botón ” para obtener la ubicación de la fuente:

Simplemente seleccione la carpeta S3 y haga clic en ' Elegir ' botón:

Una vez que la ubicación se agrega a la fuente, simplemente haga clic en ' Agregar una fuente de datos S3 ' botón:

Clickea en el ' Próximo ' botón:

Clickea en el ' Crear nuevo rol de IAM botón ” del “ Configurar ajustes de seguridad ' sección:

Ingrese el nombre del rol y haga clic en ' Crear ' botón:

Después de eso, simplemente haga clic en “ Próximo ' botón:

Seleccione la base de datos de destino y escriba el nombre que se utilizará para la tabla:

Programe el rastreador para “ Bajo demanda ” y haga clic en el “ Próximo ' botón:

Revisa la configuración y haz clic en el botón “ Crear rastreador ' botón:

El rastreador se ha creado con éxito y se puede utilizar para obtener los datos de la fuente haciendo clic en ' Correr ' botón:

Eso es todo sobre los rastreadores de listas en AWS.

Conclusión

ListCrawler es el componente del servicio AWS Glue que se puede utilizar para rastrear información de fuentes y volver al catálogo. Los catálogos de datos y los rastreadores se pueden usar para recopilar datos para obtener información sobre los datos que se conocen como metadatos. El usuario también puede crear un rastreador desde AWS Glue para obtener datos del servicio S3 u otras fuentes y colocar tablas de creación en la base de datos. Esta guía ha explicado los ListCrawlers en AWS y cómo crearlos.