Какие языки и платформы поддерживает dxpdf?

dxpdf написан на Rust и доступен как CLI-инструмент (через cargo install), Rust-библиотека (через crates.io) и Python-пакет (через PyPI). Работает на macOS, Linux и Windows.

Насколько точна конвертация?

dxpdf использует вдохновлённый Flutter пайплайн measure-layout-paint, спроектированный для пиксельной точности. Он поддерживает 34 функции OOXML, включая таблицы, изображения, колонтитулы и стили. Визуальные регрессионные тесты сравнивают вывод с эталонами, сгенерированными Word.

Насколько быстр dxpdf?

На Apple M3 Max dxpdf конвертирует 3-страничный документ с таблицами и изображениями примерно за 113 мс с пиковым потреблением памяти 19 МБ. Это достаточно быстро для запуска внутри обработчиков веб-запросов.

Можно ли использовать dxpdf в Python-приложении?

Да. Установите через pip install dxpdf. Python-пакет оборачивает Rust-ядро через PyO3, обеспечивая нативную производительность. Используйте dxpdf.convert() для работы с байтами или dxpdf.convert_file() для конвертации файл-в-файл.

Какие функции DOCX ещё не поддерживаются?

Пока не реализованы: зачёркивание, выделение текста, малые прописные, тени текста, keep-with-next пагинация, VML-изображения, многоколоночная вёрстка, колонтитулы первой страницы, поля оглавления, сноски, комментарии, текстовые блоки, фигуры, текст справа налево и перенос слов.

dxpdf

Проблема

Конвертация документов Word в PDF — одна из самых распространённых задач в бизнес-софте. Счета, договоры, отчёты, формы соответствия — они начинаются как .docx-файлы и должны стать PDF для обмена, архивирования или печати.

Существующие решения имеют значительные компромиссы:

Microsoft Office / LibreOffice — требует установки полного офисного пакета на каждый сервер. Headless-режим LibreOffice медленный, потребляет много памяти и даёт непоследовательные результаты между версиями. Масштабирование означает запуск нескольких экземпляров, потребляющих гигабайты оперативной памяти.
Облачные API (Google Docs, Adobe, CloudConvert) — добавляют задержку, плату за каждую конвертацию и отправку потенциально конфиденциальных документов на сторонние серверы. Неприемлемо для регулируемых отраслей или изолированных сред.
Инструменты HTML-to-PDF (wkhtmltopdf, Puppeteer) — требуют предварительного преобразования DOCX в HTML с потерей точности форматирования. Таблицы, колонтитулы и разрывы страниц редко переживают обратный путь.

Ни одно из этих решений не работает хорошо, когда нужна быстрая, точная, офлайн-конвертация в масштабе — особенно в автоматизированных пайплайнах, CI/CD-системах или встраиваемых приложениях, где установка LibreOffice невозможна.

Как dxpdf решает эту задачу

dxpdf — это автономный конвертер DOCX в PDF, написанный на Rust и использующий графическую библиотеку Google Skia. Он читает .docx-файлы напрямую, парсит OOXML-структуру и рендерит PDF с пиксельной точностью — всё в одном бинарнике без внешних зависимостей кроме Skia.

Вдохновлённый Flutter пайплайн measure-layout-paint обеспечивает соответствие переноса текста, размеров таблиц и разрывов страниц тому, что производит Microsoft Word:

DOCX (ZIP) → Парсинг → Модель документа → Измерение → Вёрстка → Отрисовка → PDF

Результат — конвертер, который выполняет работу за ~115 мс на 3-страничном документе с таблицами и изображениями, используя всего 19 МБ памяти — достаточно быстро для запуска внутри обработчика запросов или пакетной обработки тысяч документов.

Возможности

dxpdf реализует 34 функции OOXML с полным покрытием, включая:

Форматирование текста — жирный, курсив, подчёркивание, размер шрифта, гарнитура, цвет, межсимвольный интервал, надстрочный и подстрочный текст, заливка символов
Абзацы — выравнивание (по левому краю, по центру, по правому краю), интервалы, отступы, табуляция, границы, заливка
Таблицы — ширина столбцов, отступы ячеек с 3-уровневым каскадированием, объединённые ячейки (горизонтальное и вертикальное), высота строк, границы, заливка ячеек, вложенные таблицы
Изображения — встроенные (PNG, JPEG, BMP, WebP) и плавающие/привязанные с выравниванием и процентным позиционированием
Стили — стили абзацев и символов с наследованием basedOn, настройки документа по умолчанию, шрифты темы
Колонтитулы — текст, изображения, номера страниц (коды полей PAGE/NUMPAGES)
Списки — маркированные, десятичные, строчные/прописные буквы, строчные/прописные римские с отслеживанием счётчиков
Гиперссылки — отображаются как кликабельные PDF-аннотации ссылок
Разделы — несколько размеров страниц и полей, разрывы разделов, книжная и альбомная ориентация
Вёрстка — автоматическая пагинация, перенос слов, режимы межстрочного интервала, обтекание плавающих изображений

Три способа использования

Инструмент командной строки

Установите и запустите одной командой:

cargo install dxpdf
dxpdf input.docx -o output.pdf

Rust-библиотека

Один вызов функции — байты на вход, байты на выход:

let docx_bytes = std::fs::read("document.docx")?;
let pdf_bytes = dxpdf::convert(&docx_bytes)?;
std::fs::write("output.pdf", &pdf_bytes)?;

Для большего контроля можно просмотреть модель документа перед рендерингом:

use dxpdf::{parse, model};

let document = parse::parse(&std::fs::read("document.docx")?)?;

for block in &document.blocks {
    match block {
        model::Block::Paragraph(p) => { /* inspect paragraph */ }
        model::Block::Table(t) => { /* inspect table */ }
    }
}

let pdf_bytes = dxpdf::convert_document(&document)?;

Python-пакет

Установите с PyPI и используйте в любом Python-приложении:

pip install dxpdf

import dxpdf

# Байты на вход, байты на выход
pdf_bytes = dxpdf.convert(open("input.docx", "rb").read())

# Файл в файл
dxpdf.convert_file("input.docx", "output.pdf")

Производительность

Бенчмарк на Apple M3 Max с hyperfine (20 запусков, 3 прогревочных), конвертация 3-страничного документа с 11 таблицами, 2 изображениями и 2 разделами:

Метрика	Значение
Среднее время конвертации	113 мс
Пиковая память (RSS)	19 МБ

Ядро на Rust содержит 104 модульных теста и 9 интеграционных тестов, включая визуальные регрессионные тесты, сравнивающие отрендеренные PDF с эталонными документами, сгенерированными Word.

dxpdf

Проблема

Как dxpdf решает эту задачу

Возможности

Три способа использования

Инструмент командной строки

Rust-библиотека

Python-пакет

Производительность

Сценарии использования

Автоматизированные пайплайны документов

Регулируемые среды

Встраиваемые системы и edge-вычисления

Python веб-приложения

Топ контрибьюторов

thenixan

Информация о репозитории

Активность

Хотите внести вклад?