Cómo instalar y usar modelos open-source localmente con Ollama

La inteligencia artificial no tiene por qué depender únicamente de servicios en la nube. Herramientas como Ollama nos permiten ejecutar modelos de lenguaje de código abierto directamente en nuestra máquina, sin enviar datos a terceros y con total control sobre el proceso.

En este artículo veremos cómo instalar Ollama, gestionar modelos y utilizarlos con herramientas de desarrollo como OpenCode y GitHub Copilot.

¿Qué es Ollama?

Ollama es una plataforma que simplifica la ejecución de modelos de lenguaje grandes (LLMs) de código abierto en local. Soporta modelos como Llama, Mistral, Qwen, DeepSeek y muchos más, permitiéndote ejecutarlos con un simple comando.

Ventajas de usar Ollama

Privacidad: Tus datos nunca salen de tu máquina
Sin cuotas ni límites: Usa los modelos tanto como necesites
Sin conexión: Funciona offline una vez descargados los modelos
Integrable: Se conecta fácilmente con IDEs y herramientas de desarrollo

Instalación

macOS y Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Descarga el instalador desde ollama.com/download y sigue las instrucciones del asistente.

Verificar la instalación

ollama --version

Descargar y ejecutar modelos

Ollama hace que sea trivial probar diferentes modelos. Algunos de los más populares:

# Llama 3.2 (modelo ligero, bueno para principiantes)ollama run llama3.2# Mistral (equilibrado entre calidad y velocidad)ollama run mistral# Qwen 2.5 Coder (especializado en código)ollama run qwen2.5-coder# DeepSeek Coder (alternativa para programación)ollama run deepseek-coder

La primera vez que ejecutes un modelo, Ollama lo descargará automáticamente. Los modelos se almacenan en ~/.ollama/models/ a no ser que definas la variable $OLLAMA_MODELS con el directorio en el que queramos guardarlo.

Listar modelos instalados

ollama list

Eliminar un modelo

ollama rm nombre-del-modelo

Interactuar con los modelos

Modo conversación

ollama run llama3.2

Esto abre un prompt interactivo donde puedes chatear directamente con el modelo.

Ejecutar un prompt único

ollama run llama3.2 "Explica qué es un array en JavaScript"

API HTTP local

Ollama expone una API REST en http://localhost:11434:

curl http://localhost:11434/api/generate -d '{  "model": "llama3.2",  "prompt": "¿Qué es Docker?"
}'

Instalando un modelo «similar» a claude opus

Basándose en el modelo opensource qwen3.5, un equipo de programadores se ha dedicado a «destilar» opus 4.6 para introducir parte de su razonamiento en el nuevo modelo. Podemos encontrarlo en https://ollama.com/sinhang/qwen3.5-claude-4.6-opus, aunque lo fácil sería ejecutar:

ollama run hf.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF:Q4_K_M

Esto nos termina devolviendo un error porque llama.cpp en el que está basado ollama no está actualizado y no entiende el modelo de visión incorporado, por eso si queréis ejecutarlo en vuestra GPU (24Gb de VRAM recomendables) tendríais que hacer lo siguiente:

Bájate el GGUF de https://huggingface.co/unsloth/Qwen3.5-27B-GGUF/resolve/main/Qwen3.5-27B-Q4_K_M.gguf
Crea un archivo llamado Modelfile en el mismo directorio con este contenido:

# point to downloaded GGUF
FROM ./Qwen3.5-27B.Q4_K_M.gguf

# use Ollama engine
TEMPLATE {{ .Prompt }}
RENDERER qwen3.5
PARSER qwen3.5

# suggested parameters for the official model, you may tweak it
PARAMETER top_p 0.95
PARAMETER presence_penalty 1.5
PARAMETER temperature 1
PARAMETER top_k 20

LICENSE "                                Apache License
                           Version 2.0, January 2004
                        http://www.apache.org/licenses/
"

3. ejecuta lo siguiente:

ollama create Qwen3.5-27B.Q4_K_M -f ./Modelfile

Esto creará un modelo con ese nombre y sin usar la parte de visión. A partir de ahora se puede ejecutar normalmente:

ollama run Qwen3.5-27B.Q4_K_M

Usar Ollama con OpenCode

OpenCode es un agente de código abierto que permite interactuar con modelos de IA desde la terminal.

Instalar OpenCode

npm install -g opencode

Ahora ollama nos lo pone muuuucho más sencillo para lanzar opencode con nuestro modelo.

ollama launch opencode --model Qwen3.5-27B.Q4_K_M

Integrar Ollama con GitHub Copilot

Desde marzo de 2025 (versión 1.99.0 de VS Code), GitHub Copilot incluye la funcionalidad Bring Your Own Key (BYOK) que permite añadir modelos personalizados, incluyendo Ollama, de forma nativa.

Abre GitHub Copilot Chat (Ctrl+Alt+I / Ctrl+Cmd+I)
Haz clic en el selector de modelo
Selecciona «Manage Models…»
Haz clic en «Add Models»
Selecciona Ollama
VS Code detectará automáticamente tu instancia en http://localhost:11434
Selecciona los modelos a habilitar

Modelos recomendados

Puedes ver todos los modelos soportados directamente por ollama en https://ollama.com/search aunque podemos, como hemos visto, usar otros que estén en huggingface. Además, si te registras en la web de ollama te da acceso a modelos cloud con unos límites interesantes. Si queremos usar, por ejemplo, glm-5, que es un modelo orientado a la programación muy interesante y a la altura de los de anthropic podemos ejecutar:

ollama run glm-5:cloud

Hay muchos modelos disponibles, qwen3.5 y sus derivados, así como glm son muy buenos para programar con agentes. Si te cabe en memoria (si no cabe en VRAM se ralentiza mucho) prueba con varios de ellos, incluidos los de nvidia (nemotron) y meta (llama).

Conclusión

Ollama democratiza el acceso a la inteligencia artificial local, permitiéndonos experimentar con modelos potentes sin depender de servicios externos.

Recursos adicionales

¿Has probado ya algún modelo local? Déjame un comentario.

Yo programo … el blog

La tecnología mola!