Cómo generar imágenes con tu cara usando Flux.1 ¡Gratis!

Flux.1 es un modelo de inteligencia artificial de código abierto, similar a Stable Diffusion, desarrollado por Black Forest Labs. Su objetivo principal es la generación de imágenes a partir de descripciones de texto. Flux.1 ofrece tres versiones del modelo: Flux.1 [Pro] (disponible solo vía API) y las versiones gratuitas Flux.1 [Dev] y Flux.1 [Schnell].

@ricardomoya_ai

Puedes probar el modelo en el siguiente enlace: https://flux-1.ai/generate/.

Una de las características más interesantes de los modelos de código abierto como Stable Diffusion o Flux.1 es la posibilidad de entrenarlos con un conjunto de imágenes propias para que aprendan conceptos específicos, como el rostro de una persona. Este proceso se realiza de manera eficiente mediante la técnica LoRA (Low-Rank Adaptation).

Entrenar completamente un modelo como Flux.1 o Stable Diffusion para que aprenda un concepto concreto, como nuestra cara, implicaría reajustar un modelo con miles de millones de parámetros, lo que resultaría en un elevado coste computacional y económico. Sin embargo, con la técnica de LoRA, mantiene los pesos del modelo original congelados y entrenar una pequeña red neuronal adicional de entre 3 y 10 millones de parámetros que aprende el concepto deseado (el de nuestra cara en este caso) y luego combina las salidas del modelo generador con las del modelo LoRA para generar imágenes personalizadas.

Puedes aprender más sobre cómo funciona esta técnica en el siguiente enlace: Understanding LoRA.

¡Manos a la obra! Vamos a entrenar un LoRA para generar imágenes con tu cara

Utilizaremos la web de https://replicate.com/, que es de pago, pero nos ofrece 10$ gratuitos para probar sus funcionalidades, suficiente para entrenar un LoRA con nuestra cara y generar algunas decenas de imágenes.

¿Qué necesitas?

Una cuenta de GitHub para registrarte en Replicate.
Entre 15 y 20 imágenes cuadradas de tu cara (o cara y torso). Las imágenes deben estar en formato .jpg y se recomienda un tamaño de 512×512, 768×768 o 1024×1024. El nombre de las imágenes se recomienda que sea el mismo, añadiendo el numero de la imagen al final: tu_nombre_1.jpg, tu_nombre_2.jpg, etc.

Paso 1: Registro en Replicate

Accede a https://replicate.com/ y regístrate usando tu cuenta de GitHub. Te pedirán algunos datos básicos (no personales) durante el registro.

Paso 2: Obtén los 10$ gratuitos

Una vez registrado, accede a este enlace para recibir 10$ en créditos de Replicate. No necesitarás añadir datos de pago. Cuando se acabe el crédito, podrás añadir fondos si lo deseas, pero para este tutorial, 10$ serán más que suficientes.

Paso 3: Entrena tu LoRA

Accede a https://replicate.com/ostris/flux-dev-lora-trainer/train para configurar el entrenamiento del LoRA:

1. Asigna un nombre a tu modelo (en mi caso puse, “rimogarflux“).
2. Decide si quieres que el modelo sea público o privado. En mi caso seleccioné privado.
3. Comprime tus imágenes en un archivo .zip y súbelas.
4. Define una “Trigger Word” (palabra clave), que usarás para generar imágenes con tu cara. En mi caso, usé como Trigger Word “RIMOGAR”.
5. Selecciona la opción “autocaption”, que generará automáticamente descripciones para las imágenes (necesarias para el entrenamiento del LoRA). En el campo “autocaption_prefix”, introduce «A photo of RIMOGAR”. Os recomiendo que pongáis lo mismo, cambiando la Trigger Word.
6. Los valores como “steps”, “learning_rate” y “batch_size” pueden quedarse en sus valores por defecto, ya que funcionan bien para la mayoría de los casos.
7. En el campo “resolution”, introduce el tamaño de las imágenes que subiste. En mi caso las subí con dimensiones 768×768.
8. Dejamos el campo “lora_rank” en el valor por defecto, ya que los resultados obtenidos con esta configuración fueron muy buenos.
9. Los campos restantes se utilizan para compartir el LoRA en otras plataformas. En mi caso lo deje en blanco.
10. Haz clic en “Create Training” para empezar con el entrenamiento.
11. El proceso de entrenamiento dura unos 25 minutos y tiene un coste aproximado de 2.5$. Tras completar el entrenamiento, podrás descargar tu LoRA haciendo clic en “Download weights”. El archivo descargado tendrá extensión “.safetensors”.

NOTA: Tanto para el entrenamiento del modelo como para la generación de imágenes, Replicate utiliza una GPU. En mi caso, utilicé una Nvidia A100, que tiene un precio de unos 5$/hora (a fecha de publicación). El crédito de 10$ se va consumiendo según el tiempo de uso de la GPU.

Paso 4: Genera imágenes con tu cara

Una vez entrenado el LoRA, pulsa el botón “Run trained model” para generar imágenes. Aquí deberás configurar los siguientes parámetros:

Introduce un “prompt” (texto descriptivo) que incluya tu Trigger Word (en mi caso fue RIMOGAR), como por ejemplo:

«A face sketch of RIMOGAR features pencil hb style pencil drawing».
Define el “aspect_ratio” y el tamaño de la imagen en “width” y “height” (por ejemplo, 512×512).
Selecciona el número de imágenes a generar en “num_outputs” (máximo 4).
Asegúrate de que los valores de “lora_scale” y “num_inference_steps” se queden por defecto.
Define el formato de salida en “output_format”. Cuidado, ya que por defecto estará en webp, pero puedes cambiarlo a PNG si lo prefieres.
Haz clic en “Run” para generar las imágenes.

¡Y listo! En pocos segundos tendrás imágenes generadas con tu propia cara.

Si quieres ver ejemplos de prompts para generar imágenes con tu cara sígueme en Instagram, donde estaré durante un año publicando una foto diaria de mi cara con IA: @ricardomoya_ai.