Conocimiento

Rastreo web

Ingiere centros de ayuda y documentación públicos: tipos de rastreo, profundidad, cortesía, reconocimiento de imagen Gemini opcional y transcripción de audio/vídeo, y comportamiento de cola en producción.

rastreocentro de ayudasitio documentaciónsitemapgemini

El rastreo encaja cuando el contenido ya vive en dominios que controlas. Complementa conectores cuando no hay API para un sitio estático o micrositio.

Puedes rastrear solo HTML (rápido, sin Gemini) o enriquecer opcionalmente con descripciones de imágenes enlazadas y transcripciones de audio/vídeo. Esos pasos IA requieren Gemini operativo (alojado o clave de org).

Respeta robots.txt cuando esté habilitado; FlexyAgents aplica retrasos entre peticiones para aliviar tu origen. En producción, rastreos largos pueden encolarse en workers—revisa el estado en el panel.

Tipos de rastreo: inicio, sitemap, sitio completo

Inicio rastrea una sola URL—útil para landings o pruebas humo.

Modo sitemap lee sitemap.xml (y puede seguir índices anidados hasta un tope) para enumerar URLs; bueno para sitios de docs con sitemap fiable.

Sitio completo parte de una URL semilla y sigue enlaces del mismo dominio hasta profundidad y recuento máximo—mejor cuando la navegación importa y los sitemaps están incompletos.

  • Ajusta páginas máximas y profundidad a tu infraestructura; rastreos muy grandes encajan en ventanas de mantenimiento.
  • Seguir enlaces aplica a rastreos completos; modos inicio y sitemap no deambulan arbitrariamente.

Semillas, ámbito y cortesía

Parte de URL semilla o sitemap. Restringe rutas a `/help/` o `/docs/` para que el marketing no diluya el soporte.

Excluye rutas solo para empleados autenticados salvo que quieras ese contenido en esa base.

  • Define retraso por petición (segundos) para ser cortés con orígenes pequeños.
  • Activa respeto a robots.txt cuando tu política lo exija estrictamente.

Reconocimiento de imagen frente a transcripción audio/vídeo

Dos interruptores independientes controlan si el rastreador obtiene y procesa imágenes, y si procesa URLs de audio y vídeo halladas en cada página HTML.

Si están activos, el sistema descarga medios dentro de límites de tamaño, ejecuta visión o transcripción Gemini y añade texto extraído al documento rastreado. Los fallos generan marcadores breves para ver qué URLs fallaron.

  • SVG y data: URLs se omiten en procesamiento de imagen por compatibilidad.
  • Las cuotas de rastreo alojado cuentan por llamada Gemini alojada exitosa; las claves Gemini de organización evitan contadores alojados—ver Documentación → Conocimiento → IA visión, transcripción y límites.

Portales autenticados

Algunos equipos exponen portales con SSO; coordina con TI patrones de rastreo soportados o usa exportaciones/conectores.

Nunca guardes credenciales de clientes en configuraciones de rastreo.

Mantenimiento

Programa re-rastreos tras lanzamientos grandes de docs. Enlaces rotos en el HTML fuente generan lagunas—corrige aguas arriba.

Combina rastreo con analítica para ver qué URLs realmente impulsan respuestas.

Construye sobre tu pila tecnológica

¿Listo para desplegar asistentes fundamentados?

Empieza una prueba o cuéntanos tus necesidades de despliegue, gobernanza y requisitos empresariales.