oMLX es un servidor de inferencia de modelos de lenguaje de gran tamaño (LLM) de código abierto diseñado específicamente para macOS y optimizado para Apple Silicon. Desarrollado por jundot y lanzado bajo la licencia Apache 2.0, oMLX aborda directamente uno de los mayores problemas al ejecutar agentes de código locales: la lentitud al procesar contextos largos o repetitivos. Al integrarse nativamente con el hardware de Apple, se sitúa como una de las alternativas más rápidas del mercado para desarrolladores que buscan privacidad y velocidad en su Mac.

Cómo funciona

A diferencia de los servidores tradicionales basados en llama.cpp (como Ollama), oMLX está construido sobre el framework MLX de Apple, lo que permite un acceso directo y optimizado a la memoria unificada del chip. Su característica más innovadora es el sistema de caché de dos niveles (RAM y SSD) para la Key-Value (KV) cache. Cuando un agente de código (como Claude Code o Cursor) analiza un repositorio, el contexto cambia constantemente pero comparte partes comunes (como el historial o archivos del sistema). oMLX escribe estos bloques de caché caliente en el SSD; cuando el agente vuelve a evaluar un contexto similar, la caché se recupera en milisegundos en lugar de recalcularse desde cero. Esto, sumado al soporte de batching continuo (procesamiento por lotes concurrente), permite que múltiples herramientas llamen al servidor al mismo tiempo sin cuellos de botella.

Planes y pricing detallado

oMLX es una herramienta 100% gratuita y de código abierto (FREE), distribuida bajo la licencia Apache 2.0. No cuenta con planes de suscripción, límites de uso ni pagos ocultos. Al tratarse de un servidor local, el coste financiero se limita al consumo eléctrico de tu Mac y a la compra del hardware. Puedes descargar el instalador DMG firmado y notarizado directamente desde su repositorio de GitHub, o instalarlo en tu terminal mediante Homebrew. Además, puede reutilizar los directorios de modelos que ya tengas descargados en otras aplicaciones como LM Studio, evitando duplicar descargas innecesarias en tu disco duro.

Para quién es (y para quién NO)

Es ideal para: Desarrolladores que usan Macs con Apple Silicon (chips M1, M2, M3 o M4) y trabajan intensamente con agentes de código locales o CLI (como Claude Code, Aider, OpenClaw o Cursor). Si valoras que tus respuestas locales de programación pasen de tardar más de un minuto a responder en escasos segundos gracias al caché KV persistido, esta herramienta es perfecta. No es para: Usuarios de Windows o Linux, o aquellos que aún utilicen Macs antiguos con procesadores Intel. Tampoco es necesario si solo usas LLMs para chatear ocasionalmente o realizar tareas básicas de texto donde el contexto es corto y no se invalida constantemente.

Tabla comparativa vs alternativas

Criterio	oMLX	Ollama	LM Studio
Motor Principal	MLX (Nativo Apple)	llama.cpp (GGUF)	llama.cpp (GGUF)
Persistencia KV en SSD	✅ (Dos niveles)	❌	❌
Soporte OS	Solo macOS (Apple Silicon)	Multiplataforma	macOS, Windows, Linux
Interfaz	Barra de menú (Ligera)	CLI (Servidor)	GUI Completa (Pesada)
API de Entrada	OpenAI & Anthropic	OpenAI & Ollama	OpenAI

Veredicto

oMLX es un cambio de juego para los desarrolladores en el ecosistema Apple Silicon. Su enfoque centrado en la optimización del KV cache para el flujo de trabajo de agentes de código resuelve el principal dolor de cabeza de la inferencia local. Aunque está limitado geográficamente al hardware de Apple y su ecosistema de modelos es algo más restringido que el de GGUF, la ganancia de velocidad es tan dramática que debería ser la opción por defecto para cualquier desarrollador que programe con IA local en Mac.

oMLX

Pros

Contras

Consejo Mafia IA

Cómo funciona

Planes y pricing detallado

Para quién es (y para quién NO)

Tabla comparativa vs alternativas

Veredicto