Word .docx in sauberes Markdown konvertieren, Headings, Listen und Tabellen intakt
Du hast eine .docx-Datei aus Word, Google-Docs-Export oder LibreOffice und brauchst sie als Markdown für dein README, eine statische Seite, einen Blog-Post oder eine Notion-/Obsidian-Notiz. Aus Word in einen Markdown-Editor zu copy-pasten gibt dir Müll: Smart-Quotes, kaputte Bullets, keine Headings.
Dieses Tool liest die OpenXML-Struktur in deiner .docx (Word ist eigentlich ein ZIP-Archiv mit XML drin), mappt Absatz-Styles auf Markdown-Headings, Aufzählungen und nummerierte Listen auf `-` und `1.`, Tabellen auf GitHub-Flavored-Tables und fett / kursiv / Links auf ihre Markdown-Äquivalente.
Der ganze Job läuft serverseitig in unserem Node-Prozess mit `mammoth`, derselben Library, die Pandoc-artige Tools drunter nutzen. Die Datei wird im Speicher geparst und sofort verworfen, nie auf die Disk geschrieben, nie geloggt. Du siehst zwei Panes: das rohe Markdown links (kopieren oder runterladen) und eine Live-HTML-Vorschau rechts, damit du das Ergebnis vor dem Pasten in dein Repo prüfen kannst.
So nutzt du das Tool
- Deine .docx-Datei in die Dropzone ziehen oder "Datei wählen" klicken. Nur `.docx` wird akzeptiert, das ältere `.doc`-Binärformat nicht (vorher in Word neu speichern).
- Image-Handling wählen mit dem Switch oben: "Bilder strippen" (Default, schnellste, sauberste Markdown) oder "Als base64 einbetten" (jedes Bild wird zu einer `data:image/png;base64,...`-URL inline im Markdown).
- Convert drücken. Der Server entpackt die .docx, wandert das Dokument-XML und liefert das konvertierte Markdown plus eine Warnungsliste für alles, was nicht sauber gemappt hat.
- Die Warnungs-Panel oben lesen. Mammoth listet Dinge, die es nicht konvertieren konnte: nicht unterstützte Styles, verlorene Fußnoten, gedroppte Kommentare. Entscheiden, ob es dich kümmert.
- Im linken Pane siehst du das rohe Markdown. Copy ins Clipboard oder Download, um es als `.md`-Datei mit dem gleichen Basisnamen wie die Quelle zu speichern.
- Im rechten Pane siehst du die HTML-Vorschau aus dem Markdown gerendert. So zeigt es eine Markdown-Engine (GitHub, Notion, deine statische Seite).
- Sieht das Ergebnis falsch aus, ist der Fix meist upstream: in Word echte Heading-Styles anwenden (Heading 1, Heading 2) statt nur die Schriftgröße zu bumpen. Neu speichern, neu droppen.
- Nichts wird gespeichert. Die Datei wird in einen Buffer gelesen, konvertiert, der Buffer freigegeben. Keine Kopie lebt auf unseren Servern.
Wann das nützlich ist
Sechs gängige Situationen, in denen das Tool 20 Minuten manuelles Aufräumen ersetzt:
- Langen Word-Entwurf in eine statische Seite importieren. Du hast einen 4000-Wort-Artikel in Word mit echten Heading-Styles. Du brauchst ihn als Markdown für Hugo, Astro, Next.js MDX oder Jekyll. Droppen, konvertieren, pasten, fertig. Headings, Listen, Links, Tabellen, alles erhalten.
- Interne Docs von SharePoint oder Google Docs in ein Wiki migrieren. Dein Team zieht von einer Word-basierten Knowledge-Base zu Notion, Obsidian, Outline oder BookStack. Word-Files batch-exportieren, jede durchs Tool jagen, sauberes Markdown zum Pasten kriegen.
- Eine Vendor-Spec zu einer README machen. Der Vendor hat dir eine 30-Seiten-Word-Spec mit nummerierten Headings und Tabellen geschickt. Zu Markdown konvertieren, in dein Repo als `docs/spec.md` droppen. Suchbar, diffbar, versionskontrolliert.
- Content fürs LLM-Context-Window vorbereiten. Du willst ein Word-Doc in ChatGPT, Claude oder ein lokales Modell stecken. Markdown ist deutlich token-effizienter als rohes Word-HTML, und das Modell parst Struktur (Headings, Listen) besser.
- Eine Section in einem GitHub-Issue oder PR zitieren. Du hast eine Word-Datei als Bug-Report bekommen. Konvertieren, die relevante Section kopieren, in das Issue pasten. Die Struktur (User-Step-Liste, Versions-Tabelle) überlebt intakt.
- Ein juristisches Vertrags-Template übersetzen. Du hast das Original als .docx und brauchst eine saubere Markdown-Version für eine Translation-Pipeline. Konvertieren, das Markdown übersetzen (wo Formatierung Text ist, nicht Metadaten), dann zurück exportieren.