Cómo instalar GPT-OSS en Windows 11 paso a paso

Inicio » Tutoriales » Cómo instalar GPT-OSS en Windows 11 paso a paso

GPT-OSS es un modelo abierto de OpenAI que puede ejecutarse en Windows 11 con privacidad total y sin coste de uso.
El modelo gpt-oss-20b está pensado para ordenadores de consumo con al menos 16 GB de memoria y, preferiblemente, GPU dedicada.
Ollama y LM Studio facilitan la descarga, gestión y uso de GPT-OSS mediante interfaces gráficas y API locales.
Ajustar contexto, uso de GPU y cerrar aplicaciones pesadas es clave para lograr un rendimiento fluido en equipos domésticos.

Instalar GPT-OSS en Windows 11 paso a paso

Si llevas tiempo usando ChatGPT o modelos en la nube, seguro que te has planteado más de una vez cómo sería tener una IA potente funcionando directamente en tu PC con Windows 11, sin cuotas mensuales ni depender de servidores externos. Eso es justo lo que consigues al instalar GPT-OSS de forma local: un modelo abierto de OpenAI que puedes ejecutar en tu propio equipo.

En las siguientes líneas vas a encontrar una guía muy detallada sobre cómo instalar GPT-OSS en Windows 11 paso a paso, qué modelo elegir (20B o 120B), qué requisitos de hardware necesitas, cómo usarlo con Ollama y con LM Studio, y qué aspectos prácticos debes tener en cuenta para que el rendimiento sea decente y no se te arrastre el ordenador mientras la IA está pensando.

Qué es GPT-OSS y por qué interesa tenerlo en Windows 11

GPT-OSS es una familia de modelos de lenguaje abiertos lanzados por OpenAI bajo la serie “Open Source Series” (OSS). Es el primer movimiento serio de la compañía hacia modelos con pesos abiertos desde los tiempos de GPT‑2, y llega con dos variantes principales que marcan la diferencia a nivel de requisitos y potencia.

Por un lado tenemos gpt-oss-120b, el modelo grande de la familia, con unos 120.000 millones de parámetros y un rendimiento que se acerca mucho a modelos propietarios como o4‑mini en tareas de razonamiento, programación o salud. A cambio, exige al menos unos 60 GB de memoria gráfica o memoria unificada, de modo que no es un candidato realista para la mayoría de PC de consumo.

La otra variante es gpt-oss-20b, bastante más compacta, diseñada para ejecutarse en dispositivos de tipo “edge” como ordenadores domésticos o portátiles avanzados. Ofrece un rendimiento comparable a modelos como o3‑mini según la propia OpenAI y, sobre todo, puede funcionar en equipos con 16 GB de memoria (preferiblemente VRAM), lo que lo hace viable para muchos usuarios de Windows 11.

Ambos modelos se distribuyen bajo licencia Apache 2.0, lo que implica que puedes utilizarlos para proyectos comerciales, auditarlos, modificarlos y redistribuirlos sin demasiadas trabas legales. Además, incorporan soporte para razonamiento paso a paso, uso de herramientas externas (por ejemplo, llamadas HTTP o ejecución de código Python) y distintos niveles de “intensidad” de razonamiento para equilibrar calidad y velocidad.

Todo esto se traduce en que, una vez instalado en Windows 11, GPT-OSS se convierte en un asistente todoterreno capaz de redactar textos, analizar documentos, explicar código, buscar errores en tus programas, ayudarte con matemáticas o lógica, planificar proyectos o echarte una mano con el brainstorming creativo sin que nada salga de tu ordenador.

Ventajas y desventajas de usar GPT-OSS en local

La primera gran ventaja de ejecutar GPT-OSS en Windows 11 es la privacidad total de tus datos. Todo lo que escribes, subes o procesas se queda en tu máquina: no hay llamadas a servidores de terceros ni registro remoto de tus conversaciones para entrenar otros modelos o servir publicidad.

Muy relacionada con lo anterior está la seguridad de la información sensible. Al no haber transmisión a la nube, cualquier documento confidencial, código propietario o dato personal que uses con GPT-OSS permanece bajo tu control, algo clave si trabajas con información de empresa, clientes o proyectos delicados.

Otra ventaja clara es la libertad económica. Servicios como ChatGPT Plus, Gemini Advanced o modelos comerciales similares rondan los 20 dólares o euros mensuales. GPT-OSS, en cambio, es gratuito: descargas el modelo una única vez, lo guardas en tu SSD y te olvidas de suscripciones, límites de uso o costes variables por número de tokens.

Además, al tener el modelo en local ganas un grado de control y personalización difícil de conseguir en la nube. Puedes ajustar parámetros de generación, modificar el comportamiento por defecto, integrarlo en tus propias aplicaciones, combinarlo con otras herramientas y automatizaciones o incluso experimentar con su afinado si te metes en terrenos más avanzados.

Eso sí, no todo es de color de rosa: el rendimiento depende directamente de tu hardware. Cuanto más modesto sea tu equipo, más lenta será la generación de texto, sobre todo si tiras solo de CPU o de una GPU integrada justa. También tendrás que asumir cierta responsabilidad técnica: gestionar tú mismo las actualizaciones, mantener el entorno limpio, controlar el uso de recursos y, si te animas con afinados o integraciones, cacharrear un poco más de la cuenta.

Requisitos mínimos y recomendados para GPT-OSS en Windows 11

Antes de lanzarte a instalar nada, conviene revisar qué necesita tu PC con Windows 11 para mover GPT-OSS con garantías. Lo bueno es que para el modelo 20B los requisitos son exigentes pero asumibles para muchos equipos modernos.

¿Qué es el beneficio?

En cuanto al sistema, basta con Windows 10 u 11 de 64 bits, aunque aquí nos centraremos en Windows 11 porque es el entorno más habitual y el que mejor soporte tiene para las herramientas gráficas como Ollama o LM Studio.

La memoria RAM es uno de los puntos críticos. Para gpt-oss-20b la cifra mínima razonable son 8 GB de RAM, aunque en la práctica 16 GB marcan la diferencia y ofrecen una experiencia mucho más fluida, sobre todo si mantienes el navegador y otras aplicaciones abiertas. Para gpt-oss-120b, directamente hablamos de 16 GB como suelo y de 32 GB como recomendación realista para no ir al límite.

En procesador, no hace falta nada de última hornada, pero sí evitar diseños demasiado viejos. Lo ideal es contar como mínimo con un Intel Core i5 de cuarta generación o superior o un AMD Ryzen 3 o modelos posteriores. Más núcleos y más frecuencia ayudan, aunque el cuello de botella principal suele estar en la memoria y la GPU.

El almacenamiento también importa. La recomendación es montar un SSD con al menos 500 GB libres, no tanto porque el modelo ocupe todo ese espacio, sino porque necesitarás margen para otros modelos, ficheros de configuración y cachés. GPT-OSS:20b ronda los 13 GB, mientras que GPT-OSS:120b puede escalar hasta los 70 GB, a lo que hay que sumar lo que apilen Ollama o LM Studio y el resto de tu sistema.

Donde realmente se marca la diferencia es en la tarjeta gráfica. Para un uso cómodo se recomiendan NVIDIA GeForce RTX 3060 o superior o bien una AMD Radeon RX 6700 en adelante, ya que la GPU acelera enormemente la generación de tokens. Con modelos anteriores también funciona, pero notarás más latencia por respuesta, sobre todo en diálogos largos o tareas pesadas.

Si no dispones de GPU dedicada, GPT-OSS puede ejecutarse tirando únicamente de CPU o de una gráfica integrada, pero la velocidad será mucho más baja. En esos casos conviene ser realista: reducir el tamaño del modelo, acortar el contexto y evitar peticiones exageradamente largas para que tu equipo no se quede colgado.

Por último, necesitarás conexión a Internet solo durante la descarga inicial del modelo. Una vez que GPT-OSS esté guardado en tu disco, podrás usarlo totalmente offline, algo muy útil si viajas con un portátil o trabajas en entornos con conectividad limitada.

Qué puedes hacer con GPT-OSS una vez instalado

Una vez que tengas GPT-OSS listo en tu Windows 11, te encontrarás con un asistente de propósito general capaz de generar texto prácticamente de cualquier tipo. Puedes pedirle desde correos electrónicos con tono formal hasta copys para redes sociales, guiones de vídeo, posts de blog, historias cortas, poemas o esquemas de contenido.

En el ámbito más técnico, GPT-OSS se defiende muy bien explicando código, analizando fragmentos de programas y sugiriendo correcciones. Si estás aprendiendo un lenguaje nuevo, le puedes pedir que te explique conceptos con ejemplos sencillos, que reescriba funciones siguiendo buenas prácticas o que te proponga ejercicios crecientes de dificultad.

También puede ayudarte con problemas matemáticos y de lógica, mostrando pasos intermedios y razonamientos estructurados, algo especialmente útil para estudiantes o para validar soluciones que estés implementando en tu propio código.

En el terreno de la productividad personal, GPT-OSS es un aliado interesante para planificar proyectos, hacer listas de tareas, generar ideas en sesiones de brainstorming, resumir documentos largos o extraer puntos clave de informes densos. Al tenerlo corriendo en local, puedes incluso automatizar cosas como resúmenes recurrentes de PDFs que guardes en una carpeta concreta.

En definitiva, si eres estudiante, profesional, escritor, programador o simplemente alguien curioso, GPT-OSS se adapta bastante bien a distintos perfiles y casos de uso. La clave estará en ajustar bien el tamaño del modelo, el contexto y los parámetros de generación a lo que tu hardware pueda soportar sin sufrir.

Usar GPT-OSS en Windows 11 con Ollama

La forma más sencilla y amigable de poner en marcha GPT-OSS en Windows 11 es apoyarte en Ollama, una aplicación gratuita de código abierto pensada para gestionar modelos de lenguaje en local. Piensa en ella como en un “lanzador” que se encarga de descargar, actualizar y ejecutar los modelos por ti.

En versiones recientes, Ollama para Windows se distribuye como un instalador gráfico convencional, así que no hace falta pelearse con la línea de comandos salvo que tú quieras. Solo tienes que entrar en la página oficial de descargas de Ollama, localizar el archivo “OllamaSetup.exe” para Windows y descargarlo desde allí, sin recurrir a webs de terceros ni repositorios raros.

Antes de ejecutar el instalador, conviene repasar que tu PC cumple los requisitos básicos de Ollama: Windows 10 u 11 de 64 bits, al menos 8 GB de RAM y una CPU x86 con un mínimo de cuatro núcleos, por ejemplo un Intel Core i5/i7 de cuarta generación o un AMD Ryzen 3/5/7. Una GPU dedicada de NVIDIA o AMD es opcional, pero como ya hemos comentado, marcará una diferencia muy clara en rendimiento.

Cómo instalar y usar BlueStacks en macOS con BlueStacks Air

Una vez descargado “OllamaSetup.exe”, lo abres y sigues los pasos habituales de cualquier instalación en Windows. Cuando termines y ejecutes Ollama por primera vez, verás una interfaz bastante limpia con un área central de chat y un selector de modelos bajo el logotipo, normalmente etiquetado como “Select a model”.

Al pulsar ese desplegable, se mostrará una lista de modelos disponibles, tanto para uso en la nube como para descarga local. Aquí es donde verás las opciones “gpt-oss:20b” y “gpt-oss:120b”, entre otros muchos modelos populares como Deepseek, Gemma o Qwen, de modo que podrás elegir qué quieres probar en tu máquina.

Lo habitual en un PC de consumo es seleccionar gpt-oss:20b como primer modelo, sobre todo si tienes 16 GB de memoria. Cuando lo selecciones en la lista, basta con que escribas cualquier mensaje en el cuadro de chat y lo envíes: Ollama se pondrá a descargar el modelo en segundo plano, proceso que puede llevar desde unos minutos hasta bastante más si tu conexión es lenta, ya que el archivo ronda los 12‑13 GB.

Cuando la descarga termine, verás que la IA empieza a responder a tus mensajes directamente desde el cliente de Ollama, y a partir de ese momento GPT-OSS quedará disponible de forma local. Podrás abrir y cerrar la aplicación sin necesidad de volver a descargar el modelo, salvo que cambies de versión o lo borres manualmente para liberar espacio.

Configurar y probar GPT-OSS con la API de Ollama

Si además de usar la interfaz gráfica te apetece integrar GPT-OSS en tus propios scripts o herramientas, Ollama expone una API compatible con el estilo de la API de OpenAI, accesible por defecto en la dirección http://localhost:11434/v1 desde tu propio PC.

Desde la terminal de Windows (o desde Windows Terminal, PowerShell, etc.) puedes lanzar directamente el modelo con un comando del tipo ollama run gpt-oss-20b, lo que te permitirá mantener una conversación básica de texto sin necesidad de abrir la interfaz gráfica.

Para ir un paso más allá, puedes utilizar la librería oficial de OpenAI en Python apuntando al servidor local de Ollama como si fuese la propia API de OpenAI. La idea es configurar la URL base y usar una clave ficticia, ya que en el entorno local no hace falta autenticarte contra ningún servidor remoto.

Un ejemplo de uso sencillo en Python sería crear un cliente con la clase OpenAI pasando como base_url la dirección local de Ollama y un api_key cualquiera, y luego invocar a chat.completions.create indicando “gpt-oss:20b” como modelo y una serie de mensajes con roles system y user. La respuesta se procesa igual que si viniera de la nube, de forma que puedes reutilizar gran parte de tu código actual.

Este enfoque te permite probar GPT-OSS dentro de tus proyectos sin tener que reescribir todo desde cero, integrarlo en backends, bots, herramientas internas de empresa o pipelines de análisis de texto automatizado, todo corriendo en tu propio hardware y sin coste por token.

Alternativa gráfica: GPT-OSS en Windows 11 con LM Studio

Si Ollama te sabe a poco o quieres una interfaz más elaborada, con más opciones y aspecto tipo ChatGPT, otra alternativa muy popular es LM Studio. También es gratuito, funciona en Windows, Linux y macOS, y está pensado para manejar varios modelos en local con más controles de configuración.

Los requisitos de LM Studio para Windows incluyen una CPU de 64 bits con soporte AVX2, 16 GB de RAM recomendados para modelos de 7‑8B (aunque con 8 GB puedes empezar por modelos más pequeños) y, como siempre, una GPU opcional para acelerar la inferencia. Cada modelo puede ocupar desde 2 GB hasta más de 20 GB, y en el caso de GPT-OSS:20b se puede ir cerca de los 70 GB según el formato y cuantización.

Para instalarlo, solo tienes que ir a la web oficial de LM Studio y descargar el instalador para Windows, que pesa algo más de 500 MB. Una vez descargado el archivo .exe, lo ejecutas, eliges la carpeta de instalación (necesitarás alrededor de 1,7 GB para el propio programa) y finalizas el asistente. Al abrirlo, aparecerá una interfaz moderna muy orientada a chats y gestión de modelos.

En la barra lateral izquierda verás varios iconos, entre ellos una lupa de color morado que da acceso al buscador de modelos. Al pulsarla, se despliega un catálogo con todos los modelos disponibles para ser descargados y ejecutados en local desde LM Studio, filtrables por tamaño, autor o tipo de tarea.

Dentro de ese listado puedes localizar GPT-OSS:20b y seleccionar la opción de descarga. El programa mostrará detalles del modelo, tamaño, formato, requisitos aproximados y un botón de “Download” para comenzar la bajada. De nuevo, el tiempo dependerá de tu conexión y del almacenamiento, así que paciencia mientras el modelo se guarda en tu SSD.

¿Qué significa Ctrl +Alt del?

Cuando termine la descarga, debes ir a la sección “Chats” en la columna izquierda, donde encontrarás un selector con el texto “Seleccione un modelo para cargar”. Allí eliges GPT-OSS:20b y LM Studio te mostrará una pantalla de configuración previa al arranque del modelo, con varios deslizadores y opciones clave.

Ajustes importantes de LM Studio para GPT-OSS

En esa pantalla previa de LM Studio hay dos parámetros especialmente relevantes: la longitud del contexto y el porcentaje de descarga de capas a la GPU, que influyen directamente en el rendimiento y en el consumo de memoria del modelo.

La longitud del contexto define cuántos tokens puede “recordar” el modelo en una conversación. Si mueves el control hacia la derecha, amplías el máximo de tokens, lo que permite hilos más largos o documentos más extensos. Sin embargo, esto dispara tanto el consumo de RAM/VRAM como el tiempo de cómputo por token, por lo que no es buena idea llevarlo al máximo si tu hardware va justo.

Si no tienes mucha memoria, conviene que ajustes el contexto a valores moderados y pruebes poco a poco, porque al quedarte corto de RAM o VRAM pueden aparecer errores, cortes de generación o bloqueos. En equipos con 8‑12 GB de VRAM hay que andarse con ojo y no pasarse de ambicioso con el tamaño del contexto.

La opción de “descarga a GPU” controla cuántas capas del modelo se ejecutan en la tarjeta gráfica en lugar de en la CPU. Cuanto más porcentaje delegues en la GPU, más rápido se generará el texto, especialmente en modelos medianos y grandes como 7B‑20B. A cambio, la VRAM se llenará antes y, si te pasas, el rendimiento puede incluso empeorar.

La idea es encontrar un punto intermedio donde la GPU haga la mayor parte del trabajo sin saturar su memoria. Puedes empezar con valores conservadores, lanzar varias pruebas y aumentar progresivamente hasta que notes tirones o mensajes de error, y después retroceder un poco para quedarte en una zona estable.

Una vez que hayas configurado estos parámetros, solo tienes que pulsar en “Cargar modelo”. LM Studio preparará GPT-OSS:20b en segundo plano y, cuando termine, abrirá un chat con apariencia muy similar a la de ChatGPT, listo para que empieces a escribir tus preguntas y veas cómo responde el modelo en local.

Durante el uso, LM Studio puede mostrarte información sobre el ritmo de generación y el consumo de recursos, algo muy útil para ir afinando la configuración. Si notas que tu PC se ralentiza demasiado, plantéate bajar el contexto, reducir el uso de GPU o cerrar aplicaciones pesadas como navegadores con muchas pestañas, editores de vídeo o juegos abiertos.

Consejos prácticos de rendimiento y uso diario

Aunque GPT-OSS:20b pueda ejecutarse con 16 GB de memoria, en la práctica lo ideal es dedicarle la mayor cantidad de recursos posible mientras lo usas. Eso implica cerrar programas que coman mucha RAM o VRAM, evitar tener mil pestañas del navegador abiertas y no mezclar sesiones intensivas de IA con tareas muy pesadas como edición de vídeo 4K o juegos exigentes.

Si tu GPU no llega a las recomendaciones (por ejemplo, si tienes una gráfica anterior a la RTX 3060 o una AMD más antigua), no pasa nada: el modelo seguirá funcionando, solo que más lento. En ese caso, es preferible mantener conversaciones algo más cortas, reducir el contexto máximo y no pedirle respuestas excesivamente largas, para evitar que cada consulta tarde una eternidad.

Ten en cuenta que, si tu tarjeta gráfica no tiene suficiente VRAM para cargar la mayor parte de GPT-OSS, el sistema empezará a derivar parte del trabajo a la RAM. Mientras tengas 16 GB o más de memoria total disponible, debería seguir funcionando, pero notarás que el ordenador responde más perezoso y que los tiempos por respuesta suben.

Otra buena costumbre es revisar periódicamente las actualizaciones de Ollama o LM Studio, ya que suelen incluir mejoras de rendimiento, compatibilidad con nuevas GPUs y corrección de errores. Actualizarlos es sencillo y, en general, no implica volver a descargar los modelos salvo que cambie el formato o haya una nueva versión específica.

Si te animas con integraciones más avanzadas, puedes combinar GPT-OSS con scripts que monitoricen carpetas, sistemas de notas, herramientas de productividad o incluso con aplicaciones propias a través de la API. El hecho de que todo esté en local te da bastante margen para automatizar flujos sin depender de servicios externos.

Con todo lo anterior, instalar GPT-OSS en Windows 11 te permite convertir tu ordenador en un pequeño “centro de IA” doméstico o profesional, con un equilibrio muy interesante entre potencia, privacidad, coste cero en uso y control total sobre el entorno. Siempre que respetes los requisitos de hardware, cuides un poco la configuración y seas consciente de las limitaciones frente a los grandes centros de datos, podrás disfrutar de una experiencia muy cercana a ChatGPT, pero corriendo íntegramente en tu propio PC.