En este tutorial te mostramos cómo crear un entorno completamente funcional de Ollama dentro de Google Colab para emular un flujo de trabajo con modelos de lenguaje grandes (LLM) autoalojados. Comenzamos instalando Ollama directamente en la máquina virtual de Colab usando su instalador oficial para Linux, y luego iniciamos el servidor de Ollama en segundo plano para exponer su API HTTP en localhost:11434.
Una vez que verificamos que el servicio está activo, descargamos modelos ligeros como qwen2.5:0.5b-instruct o llama3.2:1b, que ofrecen un buen equilibrio entre uso de recursos y funcionalidad en un entorno solamente con CPU. Para interactuar con estos modelos desde código, utilizamos el endpoint /api/chat a través del módulo requests de Python con la opción de streaming activada, lo que nos permite capturar la salida token a token de forma incremental.
Finalmente, añadimos una interfaz gráfica basada en Gradio que funciona como cliente para enviar preguntas, mantener un historial de conversación con múltiples turnos, configurar parámetros como temperatura y tamaño del contexto, y ver las respuestas en tiempo real.
El flujo para preparar el entorno incluye verificar si Ollama ya está instalado y, en caso contrario, instalarlo; asimismo, comprobamos que Gradio esté disponible o procedemos a su instalación automática para asegurar que la interfaz funcione sin problemas.
Para iniciar el servidor de Ollama, se ejecuta en segundo plano y se hace una comprobación constante a su endpoint de salud hasta confirmar que está activo, evitando así enviar peticiones cuando el servidor aún no está listo.
Se define el modelo por defecto que se va a usar y se verifica si ya está descargado en el servidor; si no es así, se realiza la descarga automática para tenerlo listo antes de comenzar a chatear.
La comunicación con el modelo se hace enviando mensajes en formato JSON al endpoint /api/chat, activando el modo streaming para recibir las respuestas poco a poco y mostrar la generación en tiempo real, lo que mejora la experiencia interactiva.
Para comprobar que todo funcione correctamente, se realiza una prueba rápida enviando un prompt simple que solicita tips para dormir mejor, obteniendo la respuesta vía streaming y confirmando que la configuración está correcta.
En cuanto a la interfaz, con Gradio montamos un chat sencillo que muestra barras para ajustar temperatura y el número de tokens de contexto, una caja para ingresar preguntas y un botón para limpiar el chat. Los mensajes del usuario y las respuestas del modelo se gestionan para mantener el flujo de la conversación y mostrar las respuestas conforme llegan.
En resumen, este pipeline reproducible permite instalar, lanzar y gestionar Ollama dentro de Google Colab, usar la API REST para la interacción con los modelos y añadir una interfaz gráfica interactiva para facilitar las pruebas. Así, adaptamos la experiencia de un modelo autoalojado para un entorno con limitaciones como Colab, donde no se dispone de Docker ni GPUs, pero manteniendo toda la funcionalidad básica. Esta solución compacta y completa permite experimentar con distintos modelos, ajustar parámetros de generación y probar interfaces conversacionales localmente dentro de un notebook.
Con este método puedes empezar a trabajar fácilmente con Ollama en Colab, integrando instalación, servidor, modelos, llamadas a la API y UI de forma fluida y accesible.



