Správa metadata je důležitou součástí automatizace dokumentů, zejména pro aplikace, které pracují s různými formáty dokumentů. V tomto článku se podíváme, jak spravovat metadata v aplikacích Python, s důrazem na extrakci, úpravu a odstranění metadata.
V tomto průvodci prozkoumejme následující sekce:
- Co je GroupDocs.Metadata a jak pomáhá?
- Jak nainstalovat
- Rychlý průvodce
- Klíčové funkce
- Obvyklé případy použití
- Začínáme s bezplatnou zkušební verzí
- Viz také
Co je GroupDocs.Metadata a jak pomáhá?
GroupDocs.Metadata for Python via .NET je mocná knihovna navržená pro pomoc vývojářům při správě metadata v různých formátech dokumentů v aplikacích Python. Když Python poskytuje nativní metody pro extrakci základních metadata, jako je velikost souboru, typ a atributy, tyto metody selhávají při práci s komplexnějšími metadata, které jsou spojeny se specifickými formáty souborů.
GroupDocs.Metadata vyplňuje tuto mezeru, umožňující uživatelům získávat, aktualizovat a odstraňovat metadata z souborů, jako jsou PDF, formáty Microsoft Office, obrázky, zvuk, video a mnoho dalších. Také umožňuje přístup k podrobným informacím, jako je autor, název, specifické vlastnosti formátů souborů, včetně GPS umístění a mnoho dalších. S jednoduchým API umožňuje GroupDocs.Metadata efektivně manipulovat s metadata, aby pokryly mnoho scénářů automatizace dokumentů a zpracování dat.
Jak nainstalovat
GroupDocs.Metadata for Python via .NET lze snadno nainstalovat pomocí pip. Můžete odkazovat na naše API v vašem projektu Python instalací následujícím příkazem:
pip install groupdocs-metadata-net
Rychlý průvodce
Začínáme s GroupDocs.Metadata for Python via .NET je rychlé a přímé s naším projektem příkladů. Tady je jednoduchý průvodce, který vám pomůže nastavit:
-
Klonovat úložiště: Klonujte příklad úložiště na svůj lokální počítač.
git clone https://github.com/groupdocs-metadata/GroupDocs.Metadata-for-Python-via-.NET.git
-
Přejít do složky Příklady:
cd ./GroupDocs.Metadata-for-Python-via-.NET/
-
Nainstalovat nutné balíčky:
pip install groupdocs-metadata-net
-
Spustit příklady:
python run_examples.py
To spustí sérii příkladových skriptů, které demonstrují různé funkce knihovny GroupDocs.Metadata.
Klíčové funkce
GroupDocs.Metadata for Python via .NET je vybaven rozsáhlým množstvím funkcí, které z něj dělají užitečné API pro vývojáře, kteří pracují s dokumentovými metadata. Tady jsou některé z klíčových funkcí:
- Bohatá sada funkcí správy metadata: Čtěte, aktualizujte a odstraňujte metadata z různých formátů dokumentů.
- Cílená manipulace s vlastnostmi: Vyhledávejte, aktualizujte a mažte specifické vlastnosti metadata, které splňují určité kritéria.
- Sjednocená správa vlastností: Využívejte značky pro snadnou manipulaci s běžnými vlastnostmi metadata konzistentním způsobem.
- Podpora heslem chráněných dokumentů: Práce s dokumenty, které jsou zabezpečeny, zajišťuje flexibilitu i s citlivými daty.
- Náhled do vlastností dokumentů: Extrahujte podrobné informace o skrytých stránkách, digitálních podpisech, komentářích uživatelů, revizích a dalších.
- Kompatibilita s populárními standardy: Práce s vedoucími standardy metadata, jako jsou IPTC, XMP, EXIF a Image Resources.
- Správa metadata multimédií: Manipulujte nativními vlastnostmi metadata v různých formátech a extrahujte technické informace z multimediálních souborů.
- Výpočet statistik dokumentů: Výpočet běžných statistik dokumentů, jako je počet slov a znaků pro vaše dokumenty.
- Detekce formátu souboru: Identifikujte formát a MIME typ souboru na základě jeho vnitřní struktury.
- Podpora pro audio značky: Správa různých audio značek, včetně ID3, Lyrics a APE.
Obvyklé případy použití
Níže jsou některé obvyklé případy použití GroupDocs.Metadata v aplikacích Python, spolu s odpovídajícími ukázkami kódu.
Případ použití 1: Získat metadata z obrázku
V tomto příkladu budeme získávat vlastnosti metadata obrázkového souboru (například image.jpg
) na základě specifických kritérií.
- Inicializovat objekt Metadata: Vytvořte novou instanci třídy Metadata se svým souborem.
- Definovat vyhledávací kritéria: Použijte vyhledávací specifikaci k nalezení určitých vlastností.
- Získat a zobrazit metadata: Získejte shodné vlastnosti a zaznamenávejte jejich názvy a hodnoty.
import os
import groupdocs.metadata as gm
from datetime import datetime
def run():
with gm.Metadata("image.jpg") as metadata:
# Zkontrolujte, zda je formát souboru známý a dokument není zašifrován
if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
# Definujte vyhledávací specifikaci pro nalezení všech vlastností
specification = gm.search.AnySpecification()
# Najdete vlastnosti na základě vyhledávací specifikace
properties = metadata.find_properties(specification)
# Projděte nalezené vlastnosti a vytiskněte jejich názvy a hodnoty
for property in properties:
# Zpracujte složité typy dat pomocí vlastnosti interpreted_value
if not (property.interpreted_value is None):
print(f"Property name: {property.name}, Property value: {property.interpreted_value}")
else:
print(f"Property name: {property.name}, Property value: {property.value}")
Případ použití 2: Vyčistit metadata z dokumentu
Zde budeme vyčistit nežádoucí metadata z PDF dokumentu.
- Načíst PDF: Vytvořte objekt Metadata pro PDF soubor.
- Vyčistit metadata: Odstraňte detekované balíčky metadata.
- Uložit vyčištěný dokument: Uložte vyčištěný dokument do nového souboru.
import groupdocs.metadata as gm
def run():
with gm.Metadata("input.pdf") as metadata:
# Odstraňte detekované balíčky metadata a zaznamenávejte odstraňované vlastnosti
affected = metadata.sanitize()
print(f"Properties removed: {affected}")
# Uložte vyčištěný PDF
metadata.save("output.pdf")
Případ použití 3: Aktualizovat metadata dokumentu
Tento příklad demonstruje, jak aktualizovat metadata autorských práv vašich dokumentů - například když začíná nový rok. Proces zahrnuje tři hlavní kroky:
- Načíst dokument: Inicializujte objekt Metadata pro soubor dokumentu.
- Nastavit nové vlastnosti: Aktualizujte metadata autorských práv dokumentu.
- Uložit aktualizovaný dokument: Uložte změny do souboru.
import os
import groupdocs.metadata as gm
import pathlib
from datetime import datetime
def run():
files = os.listdir(input_dir_path)
for file in files:
with gm.Metadata(input_dir_path + file) as metadata:
if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
print()
print(file)
# Definujte vyhledávací specifikaci pro nalezení vlastnosti autorských práv
specification = gm.search.ContainsTagSpecification(gm.tagging.Tags.legal.copyright)
# Nastavte vlastnost autorských práv na novou hodnotu
affected = metadata.set_properties(specification, gm.common.PropertyValue("Copyright (C) 2011-2025 Your Company. All Rights Reserved."))
print(f"Affected properties: {affected}")
# Uložte aktualizovaný soubor
metadata.save(output_dir_path + "output" + pathlib.Path(file).suffix)
Začínáme s bezplatnou zkušební verzí
Výchozí chování knihovny je v režimu zkušební verze bez licence, což vám umožňuje prozkoumat její základní funkce a funkce. Můžete stáhnout GroupDocs.Metadata for Python via .NET z GroupDocs Releases page.
Dále můžete získat dočasnou licenci z toto odkaz. Dočasná licence vám umožňuje používat knihovnu bez jakýchkoli omezení a plně prozkoumat její schopnosti.
Viz také
Aby se více prohloubili a získali více informací o GroupDocs.Metadata a jeho funkcích, odkazujte se na následující zdroje: