Мы рады объявить о выпуске GroupDocs.Parser for .NET 25.10, доступном с октября 2025 года. Это обновление добавляет возможность извлечения таблиц, несколько улучшений API и критическое исправление пагинации PDF.

Что нового в этом выпуске

📄 Извлечение таблиц с любой страницы (PARSERNET‑2745)

Добавлены два перегруженных метода в GroupDocs.Parser.Parser, позволяющие извлекать структуры таблиц непосредственно из документа без необходимости шаблона.

  • IEnumerable<PageTableArea> GetTables() – извлекает таблицы из всего документа.
  • IEnumerable<PageTableArea> GetTables(int pageIndex) – извлекает таблицы с конкретной страницы.

Примечание: PageTableArea представляет обнаруженный регион таблицы вместе с её ячейками, ссылкой на страницу и ограничивающим прямоугольником.

Пример – Получить таблицы с одной страницы

using (Parser parser = new Parser(filePath))
{
    int pageIndex = 0;               // первая страница (нумерация с нуля)
    IEnumerable<PageTableArea> tables = parser.GetTables(pageIndex);

    // перебор таблиц
    foreach (var table in tables)
    {
        // работа с table.Cells, table.Page и т.д.
    }
}

🔧 Редизайн API – внутренний конструктор PageTableArea (PARSERNET‑2743)

Публичный конструктор GroupDocs.Parser.Data.PageTableArea удалён и теперь внутренний. Экземпляры этого класса создаются исключительно движком Parser, что предотвращает случайное неправильное использование. Это несовместимое изменение для всех, кто создавал PageTableArea напрямую.

🐞 Исправление – Парсинг PDF ограничен первыми 4 страницами (PARSERNET‑1871)

Парсер теперь корректно обрабатывает все страницы PDF‑документа. Ранее при вызове API парсинга возвращались только первые четыре страницы.

Как получить обновление

Ресурсы