Plaftorm Engineer
Creemos el futuro juntos
Sobre Creai
En Creai, nos especializamos en aprovechar el poder de la inteligencia artificial y el aprendizaje automático para transformar negocios. Nuestra misión es ayudar a los clientes a reducir costos, aumentar la eficiencia y desbloquear nuevas oportunidades mediante soluciones de IA de vanguardia.
Descripción del Puesto
Estamos buscando un/a Platform Engineer con amplia experiencia diseñando, construyendo y operando plataformas de ingeniería de clase mundial. Este rol es fundacional: serás el primer miembro del equipo de Plataforma, reportando directamente al CTO, con la responsabilidad de construir desde cero la infraestructura que soporta todos los proyectos de IA/ML de Creai y de nuestros clientes.
Trabajarás de manera autónoma y con visión de largo plazo, estableciendo los cimientos técnicos sobre los cuales el equipo de Plataforma crecerá. Esto incluye infraestructura como código, pipelines de CI/CD, orquestación de contenedores en Kubernetes y capacidades de MLOps que soporten el ciclo de vida completo de los modelos de machine learning e IA generativa que desarrollamos para nuestros clientes.
Este Puesto Exige
Infraestructura como Código: Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi. Definir la estrategia cloud multi-proveedor de Creai, garantizando que toda la infraestructura sea reproducible, segura y versionada.
Plataforma de CI/CD: Diseñar y operar pipelines de integración y entrega continua robustos y reutilizables para todos los equipos de ingeniería, soportando despliegues de aplicaciones y modelos de ML/IA con testing automatizado, quality gates y estrategias de rollback.
Kubernetes y Orquestación: Diseñar, desplegar y operar clústeres de Kubernetes en producción (EKS/AKS). Gestionar namespaces, RBAC, network policies, Helm/Kustomize y estrategias de escalamiento automático para cargas de trabajo de IA.
MLOps y Despliegue de Modelos: Construir y mantener la plataforma MLOps de Creai: pipelines de entrenamiento, registro y versionado de modelos, despliegue como endpoints escalables y monitoreo de performance en producción. Implementar infraestructura especializada para cargas de trabajo de IA generativa, incluyendo gestión de recursos GPU y arquitecturas RAG.
Developer Experience: Ser el principal impulsor de la experiencia del desarrollador: construir herramientas, templates y abstracciones que permitan a los equipos de ingeniería y ciencia de datos enfocarse en crear valor sin fricciones operacionales.
Seguridad y Confiabilidad: Incorporar seguridad en todos los niveles de la plataforma: gestión de secretos, IAM, cifrado y cumplimiento de mínimo privilegio. Definir y hacer seguimiento de SLAs/SLOs. Liderar la respuesta a incidentes y post-mortems. Diseñar para alta disponibilidad y recuperación ante desastres.
Observabilidad: Implementar stacks de observabilidad completos (métricas, logs y trazas) con herramientas como Prometheus, Grafana, Datadog u OpenTelemetry, garantizando visibilidad del estado de todos los servicios y modelos en producción.
Liderazgo Técnico: Como primer miembro del equipo de Plataforma, construir no solo la infraestructura sino también la cultura, los procesos y los estándares del equipo. Influir activamente en las decisiones arquitectónicas de toda la organización y mentorizar a futuros ingenieros de plataforma.
Colaboración con Clientes: Participar ocasionalmente en conversaciones técnicas con clientes para definir requisitos de infraestructura, presentar arquitecturas y asegurar que las soluciones de plataforma cumplan con las expectativas de cada proyecto.
Mejora Continua: Evaluar y mejorar continuamente el stack de plataforma, las herramientas, los procesos y las prácticas de operación, optimizando la eficiencia y la fiabilidad de las soluciones.
Comunicación Efectiva: Capacidad de comunicación clara y estructurada con stakeholders técnicos y no técnicos, presentando decisiones de arquitectura e infraestructura de manera accesible.
Requisitos
Experiencia Profesional: Más de 4 años de experiencia en roles de Platform Engineering, DevOps, SRE o Infrastructure Engineering, con responsabilidad directa sobre infraestructura en producción a escala.
Cloud Platforms: Experiencia sólida y comprobable en AWS y Azure, incluyendo servicios de cómputo, networking, almacenamiento, identidad (IAM/Entra ID) y Kubernetes gestionado (EKS/AKS).
Infraestructura como Código: Dominio de Terraform. Experiencia con gestión de estado remoto, módulos reutilizables y pipelines de IaC en CI/CD. Conocimiento de Pulumi o Ansible es un plus.
Kubernetes: Experiencia avanzada diseñando y operando clústeres de Kubernetes en producción: RBAC, network policies, Helm, Kustomize, operadores y estrategias de escalamiento (HPA, VPA, Cluster Autoscaler).
CI/CD: Experiencia diseñando pipelines de CI/CD complejos en plataformas como GitHub Actions, GitLab CI, Azure DevOps o Jenkins. Conocimiento de prácticas GitOps con ArgoCD o Flux.
Contenedores: Dominio de Docker: construcción de imágenes optimizadas, multi-stage builds y gestión de registros (ECR, ACR). Experiencia con escaneo de vulnerabilidades (Trivy, Snyk).
Observabilidad: Experiencia implementando stacks de observabilidad con Prometheus, Grafana, Datadog, OpenTelemetry o ELK/Loki. Capacidad de diseñar dashboards, alertas y SLOs significativos.
Scripting y Automatización: Sólidas habilidades de scripting en Python y Bash para automatización de tareas operacionales y desarrollo de herramientas internas.
Autonomía y Ownership: Capacidad comprobada de trabajar de forma independiente, tomar decisiones técnicas complejas y ser dueño/a de resultados end-to-end en contextos de alta ambigüedad.
Comunicación: Habilidad para explicar decisiones de infraestructura a audiencias técnicas y de negocio. Comunicación fluida en español e inglés, escrito y verbal.
MLOps (Valorado): Experiencia con herramientas como MLflow, Kubeflow, Seldon Core, KServe, SageMaker Pipelines o Azure ML Pipelines para gestión del ciclo de vida de modelos de ML.
GPU y Cargas de IA (Valorado): Experiencia gestionando infraestructura de GPU (instancias spot, scheduling) y desplegando modelos de LLMs o embeddings en producción.
Certificaciones (Valorado): Certificaciones en AWS (Solutions Architect, DevOps Engineer) o Azure (AZ-104, AZ-400).
Service Mesh (Valorado): Experiencia con Istio, Linkerd o Consul para gestión de tráfico, mTLS y observabilidad de red.
Bases de Datos Vectoriales (Valorado): Experiencia operando bases de datos vectoriales como Pinecone, Weaviate o pgvector en producción.
Open Source (Valorado): Contribuciones a proyectos open source de infraestructura o participación en comunidades CNCF, SRE o Cloud Native.
Beneficios
💻 Trabajo 100% remoto con horario alineado a CST.
🏖️ PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.
🎓 Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.
🛠️ Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.
🩺 Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.
🚀 Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.
🚀 Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.
⚖️ Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.
¡Te invitamos a postularte!
Incluso si no cumples con todos los requisitos, valoramos experiencias y perspectivas diversas. Si te apasiona el reclutamiento y quieres crecer en una empresa enfocada en datos e IA, ¡nos encantaría conocerte!
- Reclutamiento
- Tech
- Ubicaciones
- Remoto
- Estado remoto
- Completamente remoto