Управление метаданными является важной частью автоматизации документов, особенно для приложений, работающих с различными форматами документов. В этой статье мы рассмотрим, как управлять метаданными в приложениях Python, с акцентом на извлечение, изменение и удаление метаданных.
В этом руководстве мы рассмотрим следующие разделы:
- Что такое GroupDocs.Metadata и как оно помогает?
- Как установить
- Быстрый старт
- Основные функции
- Общие сценарии использования
- Начало работы с бесплатной пробной версией
- См. также
Что такое GroupDocs.Metadata и как оно помогает?
GroupDocs.Metadata for Python via .NET — это мощная библиотека, предназначенная для помощи разработчикам в управлении метаданными в различных форматах документов в приложениях Python. Хотя Python предоставляет встроенные методы для извлечения базовых метаданных, таких как размер файла, тип и атрибуты, эти методы не справляются с более сложными метаданными, связанными с определенными форматами файлов.
GroupDocs.Metadata заполняет этот пробел, позволяя пользователям извлекать, обновлять и удалять метаданные из файлов, таких как PDF, форматы Microsoft Office, изображения, аудио, видео и многие другие. Он также обеспечивает доступ к подробной информации, такой как автор, заголовок, специфические свойства форматов файлов, включая данные GPS-локации и многое другое. С помощью простого API GroupDocs.Metadata позволяет эффективно манипулировать метаданными для покрытия многих сценариев автоматизации документов и обработки данных.
Как установить
GroupDocs.Metadata for Python via .NET можно легко установить с помощью pip. Вы можете ссылаться на наш API в вашем проекте Python, установив его с помощью следующей команды:
pip install groupdocs-metadata-net
Быстрый старт
Начало работы с GroupDocs.Metadata for Python via .NET быстрое и простое с нашим примером проекта. Вот простая инструкция, чтобы помочь вам настроить:
-
Клонировать репозиторий: Склонируйте пример репозитория на ваш локальный компьютер.
git clone https://github.com/groupdocs-metadata/GroupDocs.Metadata-for-Python-via-.NET.git
-
Перейти в папку с примерами:
cd ./GroupDocs.Metadata-for-Python-via-.NET/
-
Установить необходимые пакеты:
pip install groupdocs-metadata-net
-
Запустить примеры:
python run_examples.py
Это выполнит серию примеров скриптов, демонстрирующих различные функции библиотеки GroupDocs.Metadata.
Основные функции
GroupDocs.Metadata for Python via .NET оснащен набором функций, которые делают его полезным API для разработчиков, работающих с метаданными документов. Вот некоторые из ключевых функций:
- Богатый набор функций управления метаданными: Чтение, обновление и удаление метаданных из различных форматов документов.
- Целевое управление свойствами: Поиск, обновление и удаление конкретных свойств метаданных, соответствующих определенным критериям.
- Единое управление свойствами: Использование тегов для удобного управления общими свойствами метаданных в единообразном порядке.
- Поддержка документов, защищенных паролем: Работа с документами, которые защищены, обеспечивая гибкость даже с конфиденциальными данными.
- Информация о свойствах документов: Извлечение подробной информации о скрытых страницах, цифровых подписях, комментариях пользователей, правках и многом другом.
- Совместимость с популярными стандартами: Работа с ведущими стандартами метаданных, такими как IPTC, XMP, EXIF и Image Resources.
- Обработка метаданных мультимедиа: Манипуляция с нативными свойствами метаданных в различных форматах и извлечение технической информации из мультимедийных файлов.
- Расчет статистики документов: Расчет общих статистических данных документов, таких как количество слов и символов для ваших документов.
- Обнаружение форматов файлов: Определение формата и типа MIME файла на основе его внутренней структуры.
- Поддержка аудио-тегов: Управление различными аудио-тегами, включая ID3, Lyrics и APE.
Общие сценарии использования
Ниже приведены некоторые общие сценарии использования GroupDocs.Metadata в приложениях Python, вместе с соответствующими фрагментами кода.
Сценарий 1: Извлечение метаданных из изображения
В этом примере мы извлечем свойства метаданных файла изображения (например, image.jpg
) на основе определенных критериев.
- Инициализация объекта метаданных: Создайте новый экземпляр класса Metadata с вашим файлом.
- Определение критериев поиска: Используйте спецификацию поиска для нахождения определенных свойств.
- Извлечение и отображение метаданных: Извлеките соответствующие свойства и запишите их имена и значения.
import os
import groupdocs.metadata as gm
from datetime import datetime
def run():
with gm.Metadata("image.jpg") as metadata:
# Проверка, известен ли формат файла и не зашифрован ли документ
if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
# Определение спецификации поиска для нахождения всех свойств
specification = gm.search.AnySpecification()
# Нахождение свойств на основе спецификации поиска
properties = metadata.find_properties(specification)
# Перебор найденных свойств и вывод их имен и значений
for property in properties:
# Обработка сложных типов данных с использованием свойства interpreted_value
if not (property.interpreted_value is None):
print(f"Property name: {property.name}, Property value: {property.interpreted_value}")
else:
print(f"Property name: {property.name}, Property value: {property.value}")
Сценарий 2: Очистка метаданных из документа
Здесь мы очистим ненужные метаданные из PDF-документа.
- Загрузка PDF: Создайте объект Metadata для файла PDF.
- Очистка метаданных: Удалите обнаруженные пакеты метаданных.
- Сохранение очищенного документа: Сохраните очищенный документ в новый файл.
import groupdocs.metadata as gm
def run():
with gm.Metadata("input.pdf") as metadata:
# Удаление обнаруженных пакетов метаданных и запись удаленных свойств
affected = metadata.sanitize()
print(f"Properties removed: {affected}")
# Сохранение очищенного PDF
metadata.save("output.pdf")
Сценарий 3: Обновление метаданных документа
Этот пример демонстрирует, как обновить метаданные авторского права ваших документов — например, когда начинается новый год. Процесс включает три основных шага:
- Загрузка документа: Инициализируйте объект Metadata для файла документа.
- Установка новых свойств: Обновите метаданные авторского права документа.
- Сохранение обновленного документа: Сохраните изменения в файл.
import os
import groupdocs.metadata as gm
import pathlib
from datetime import datetime
def run():
files = os.listdir(input_dir_path)
for file in files:
with gm.Metadata(input_dir_path + file) as metadata:
if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
print()
print(file)
# Определение спецификации поиска для нахождения свойства авторского права
specification = gm.search.ContainsTagSpecification(gm.tagging.Tags.legal.copyright)
# Установка свойства авторского права в новое значение
affected = metadata.set_properties(specification, gm.common.PropertyValue("Copyright (C) 2011-2025 Your Company. All Rights Reserved."))
print(f"Affected properties: {affected}")
# Сохранение обновленного файла
metadata.save(output_dir_path + "output" + pathlib.Path(file).suffix)
Начало работы с бесплатной пробной версией
По умолчанию библиотека работает в режиме пробной версии без лицензии, позволяя исследовать ее базовые функции и возможности. Вы можете скачать GroupDocs.Metadata for Python via .NET с страницы релиза GroupDocs.
Кроме того, вы можете приобрести временную лицензию по этой ссылке. Временная лицензия позволяет использовать библиотеку без каких-либо ограничений и полностью исследовать ее возможности.
См. также
Для более глубокого изучения и получения дополнительных сведений о GroupDocs.Metadata и его функциях обратитесь к следующим ресурсам: