Sea lo que sea lo que le des a un modelo de lenguaje, lo ve como un flujo de tokens. Un PDF, un archivo de Word o una página web no son ese flujo — son un contenedor que el modelo no puede abrir, o un montón de marcado que tiene que ignorar. La tarea de convertir esos archivos en texto limpio y estructurado es tuya, y el formato que elijas cambia tanto la factura como la calidad de la respuesta. Markdown es el formato por el que se decide la mayoría de los equipos, por unas cuantas razones concretas.
Los modelos leen texto, no diseños
Un PDF describe dónde va la tinta en una página. Un .docx es un zip de XML lleno de datos de estilo y revisión. Una página HTML viene envuelta en navegación, scripts y estilos en línea. Nada de eso es el contenido que un modelo necesita, y todo ello estorba. Convierte a Markdown y conservas la parte que carga el significado — encabezados, párrafos, listas, tablas — como texto plano que el modelo analiza de forma nativa.
El impuesto de tokens del formato equivocado
Las ventanas de contexto son finitas, y la mayoría de las API facturan por token. Cada paréntesis angular, estilo en línea y salto de línea suelto que pegas son tokens gastados en ruido en lugar de señal. El mismo párrafo puede costar de forma muy distinta según cómo esté envuelto:
HTML: <p class="lead">El <strong>plazo de reembolso</strong> es de 30 días.</p>
Markdown: El **plazo de reembolso** es de 30 días.Multiplica eso a lo largo de un documento extenso y la diferencia es dinero real y presupuesto de contexto real. Markdown carga el mismo énfasis y significado con una fracción de la sintaxis, así que más parte de la ventana contiene tu material real — y el modelo gasta su atención en el contenido, no en las etiquetas.
La estructura es lo que mejora las respuestas
Menos tokens es la historia del coste. La historia de la calidad es la estructura. Cuando un encabezado es un encabezado de verdad y una lista es una lista de verdad, el modelo puede distinguir las secciones, seguir la jerarquía y citar el pasaje correcto. Aplana un documento en un único bloque indiferenciado y pierde el mapa. Markdown conserva ese mapa de la forma más sencilla posible, que es exactamente por lo que las canalizaciones de recuperación (RAG), las herramientas de agentes y los conjuntos de datos de ajuste fino se normalizan a él.
Las tablas son la victoria más clara
Las hojas de cálculo y las tablas de datos son donde más importa el formato. Pega celdas en bruto y un modelo pierde rápidamente la pista de qué valor está bajo qué columna. Una tabla Markdown hace explícita la correspondencia entre encabezado y valor en cada fila, así que el modelo realmente puede razonar sobre los números. Por eso convertir una hoja de cálculo en una tabla Markdown supera a entregar una captura de pantalla o un muro de valores separados por comas.
Un flujo de trabajo sencillo
- Convierte una vez. Convierte el archivo de origen en Markdown con la herramienta correspondiente de abajo. Guarda el
.md. - Revisa el resultado. Sobre todo en los PDF, donde los encabezados se infieren del tamaño de fuente — una lectura rápida detecta cualquier cosa que el diseño haya confundido.
- Reutilízalo en todas partes. El mismo Markdown encaja en un prompt, un índice vectorial o un conjunto de entrenamiento sin retoques.
Cada formato tiene su propio conversor, y todos ellos se ejecutan por completo en tu navegador:
- PDF a Markdown — texto y encabezados inferidos de un PDF.
- Word (DOCX) a Markdown — encabezados, listas y tablas de un archivo de Word.
- Excel (XLSX) a Markdown — cada hoja como una tabla Markdown.
- PowerPoint (PPTX) a Markdown — títulos de diapositiva, viñetas y notas del orador.
- HTML a Markdown — una página o fragmento, con el armazón eliminado.
- EPUB a Markdown — un libro electrónico entero en orden de lectura.
- CSV a tabla Markdown — una tabla limpia a partir de datos separados por comas o tabuladores.
Mantenlo en tu dispositivo
Los documentos que vale la pena darle a una IA suelen ser los que menos quieres subir: contratos, finanzas, presentaciones internas. Aquí no hay ningún sacrificio que hacer. Cada conversor de arriba procesa el archivo localmente en tu navegador y no envía nada a un servidor, así que obtienes Markdown limpio sin entregar tus datos a un tercero. Todo el procesamiento ocurre en tu propia máquina, donde puedes comprobarlo por ti mismo.