Cómo instalar y usar modelos open-source localmente con Ollama

La inteligencia artificial no tiene por qué depender únicamente de servicios en la nube. Herramientas como Ollama nos permiten ejecutar modelos de lenguaje de código abierto directamente en nuestra máquina, sin enviar datos a terceros y con total control sobre el proceso.

En este artículo veremos cómo instalar Ollama, gestionar modelos y utilizarlos con herramientas de desarrollo como OpenCode y GitHub Copilot.

¿Qué es Ollama?

Ollama es una plataforma que simplifica la ejecución de modelos de lenguaje grandes (LLMs) de código abierto en local. Soporta modelos como Llama, Mistral, Qwen, DeepSeek y muchos más, permitiéndote ejecutarlos con un simple comando.

Ventajas de usar Ollama

  • Privacidad: Tus datos nunca salen de tu máquina
  • Sin cuotas ni límites: Usa los modelos tanto como necesites
  • Sin conexión: Funciona offline una vez descargados los modelos
  • Integrable: Se conecta fácilmente con IDEs y herramientas de desarrollo

 

Instalación

 

macOS y Linux

curl -fsSL https://ollama.com/install.sh | sh

 

Windows

Descarga el instalador desde ollama.com/download y sigue las instrucciones del asistente.

Verificar la instalación

ollama --version

 

Descargar y ejecutar modelos

Ollama hace que sea trivial probar diferentes modelos. Algunos de los más populares:

# Llama 3.2 (modelo ligero, bueno para principiantes)ollama run llama3.2# Mistral (equilibrado entre calidad y velocidad)ollama run mistral# Qwen 2.5 Coder (especializado en código)ollama run qwen2.5-coder# DeepSeek Coder (alternativa para programación)ollama run deepseek-coder

La primera vez que ejecutes un modelo, Ollama lo descargará automáticamente. Los modelos se almacenan en ~/.ollama/models/ a no ser que definas la variable $OLLAMA_MODELS con el directorio en el que queramos guardarlo.

Listar modelos instalados

ollama list

 

Eliminar un modelo

ollama rm nombre-del-modelo

 

Interactuar con los modelos 

Modo conversación

ollama run llama3.2

Esto abre un prompt interactivo donde puedes chatear directamente con el modelo.

Ejecutar un prompt único

ollama run llama3.2 "Explica qué es un array en JavaScript"

 

API HTTP local

Ollama expone una API REST en http://localhost:11434:

curl http://localhost:11434/api/generate -d '{  "model": "llama3.2",  "prompt": "¿Qué es Docker?"
}'

 

Instalando un modelo «similar» a claude opus

Basándose en el modelo opensource qwen3.5, un equipo de programadores se ha dedicado a «destilar» opus 4.6 para introducir parte de su razonamiento en el nuevo modelo. Podemos encontrarlo en https://ollama.com/sinhang/qwen3.5-claude-4.6-opus, aunque lo fácil sería ejecutar:

ollama run hf.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF:Q4_K_M

 Esto nos termina devolviendo un error porque llama.cpp en el que está basado ollama no está actualizado y no entiende el modelo de visión incorporado, por eso si queréis ejecutarlo en vuestra GPU (24Gb de VRAM recomendables) tendríais que hacer lo siguiente:

  1. Bájate el GGUF de https://huggingface.co/unsloth/Qwen3.5-27B-GGUF/resolve/main/Qwen3.5-27B-Q4_K_M.gguf
  2. Crea un archivo llamado Modelfile en el mismo directorio con este contenido:
# point to downloaded GGUF
FROM ./Qwen3.5-27B.Q4_K_M.gguf

# use Ollama engine
TEMPLATE {{ .Prompt }}
RENDERER qwen3.5
PARSER qwen3.5

# suggested parameters for the official model, you may tweak it
PARAMETER top_p 0.95
PARAMETER presence_penalty 1.5
PARAMETER temperature 1
PARAMETER top_k 20

LICENSE "                                Apache License
                           Version 2.0, January 2004
                        http://www.apache.org/licenses/
"

3. ejecuta lo siguiente:

ollama create Qwen3.5-27B.Q4_K_M -f ./Modelfile

Esto creará un modelo con ese nombre y sin usar la parte de visión. A partir de ahora se puede ejecutar normalmente:

ollama run Qwen3.5-27B.Q4_K_M

Usar Ollama con OpenCode

OpenCode es un agente de código abierto que permite interactuar con modelos de IA desde la terminal.

Instalar OpenCode

npm install -g opencode

 Ahora ollama nos lo pone muuuucho más sencillo para lanzar opencode con nuestro modelo.

ollama launch opencode --model Qwen3.5-27B.Q4_K_M

 

Integrar Ollama con GitHub Copilot

Desde marzo de 2025 (versión 1.99.0 de VS Code), GitHub Copilot incluye la funcionalidad Bring Your Own Key (BYOK) que permite añadir modelos personalizados, incluyendo Ollama, de forma nativa.

  1. Abre GitHub Copilot Chat (Ctrl+Alt+I / Ctrl+Cmd+I)
  2. Haz clic en el selector de modelo
  3. Selecciona «Manage Models…»
  4. Haz clic en «Add Models»
  5. Selecciona Ollama
  6. VS Code detectará automáticamente tu instancia en http://localhost:11434
  7. Selecciona los modelos a habilitar

  

Modelos recomendados

Puedes ver todos los modelos soportados directamente por ollama en https://ollama.com/search aunque podemos, como hemos visto, usar otros que estén en huggingface. Además, si te registras en la web de ollama te da acceso a modelos cloud con unos límites interesantes. Si queremos usar, por ejemplo, glm-5, que es un modelo orientado a la programación muy interesante y a la altura de los de anthropic podemos ejecutar:

ollama run glm-5:cloud

 Hay muchos modelos disponibles, qwen3.5 y sus derivados, así como glm son muy buenos para programar con agentes. Si te cabe en memoria (si no cabe en VRAM se ralentiza mucho) prueba con varios de ellos, incluidos los de nvidia (nemotron) y meta (llama).

Conclusión

Ollama democratiza el acceso a la inteligencia artificial local, permitiéndonos experimentar con modelos potentes sin depender de servicios externos.

Recursos adicionales

¿Has probado ya algún modelo local? Déjame un comentario.

Deja una respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.