ドキュメントのメタデータを管理することは、特に異なるドキュメント形式を扱うアプリケーションにおいて、ドキュメント自動化の重要な部分です。この記事では、Python アプリケーションでメタデータを管理する方法について、特に抽出、変更、削除に焦点を当てて説明します。
このガイドでは、以下のセクションを探索します:
GroupDocs.Metadata とその役割
GroupDocs.Metadata for Python via .NET は、Python アプリケーションでさまざまなドキュメント形式のメタデータを管理するために設計された強力なライブラリです。Python は、ファイルサイズ、タイプ、属性などの基本的なメタデータを抽出するためのネイティブメソッドを提供していますが、これらのメソッドは特定のファイル形式に関連するより複雑なメタデータを扱う際には不十分です。
GroupDocs.Metadata は、このギャップを埋めることで、PDF、Microsoft Office 形式、画像、オーディオ、ビデオなどのファイルからメタデータを取得、更新、削除することができます。また、著者、タイトル、ファイル形式の特定のプロパティ、GPS 位置データなど、詳細な情報にアクセスすることも可能です。直感的な API を使用して、GroupDocs.Metadata は多くのドキュメント自動化およびデータ処理シナリオをカバーするためにメタデータを効果的に操作することができます。
インストール方法
GroupDocs.Metadata for Python via .NET は、pip を使用して簡単にインストールできます。以下のコマンドを使用して、Python プロジェクトで API を参照することができます:
pip install groupdocs-metadata-net
クイックスタートガイド
GroupDocs.Metadata for Python via .NET を使用して始めるのは、例プロジェクトを使用して簡単です。以下は、設定を助けるための簡単なガイドです:
-
リポジトリをクローンする: ローカルマシンに例リポジトリをクローンします。
git clone https://github.com/groupdocs-metadata/GroupDocs.Metadata-for-Python-via-.NET.git
-
例フォルダに移動する:
cd ./GroupDocs.Metadata-for-Python-via-.NET/
-
必要なパッケージをインストールする:
pip install groupdocs-metadata-net
-
例を実行する:
python run_examples.py
これにより、GroupDocs.Metadata ライブラリのさまざまな機能を示す一連の例スクリプトが実行されます。
主要な機能
GroupDocs.Metadata for Python via .NET は、ドキュメントメタデータを扱う開発者にとって有用な API を備えています。以下は、主要な機能です:
- 豊富なメタデータ管理機能: 各種ドキュメント形式からメタデータを読み取り、更新、削除します。
- 特定のプロパティ操作: 特定の基準を満たすメタデータプロパティを検索、更新、削除します。
- 統一されたプロパティ管理: タグを使用して、一貫した方法で一般的なメタデータプロパティを操作します。
- パスワード保護ドキュメントのサポート: セキュリティが確保されたドキュメントを扱い、敏感なデータでも柔軟性を確保します。
- ドキュメントプロパティの詳細情報: 隠しページ、デジタル署名、ユーザーコメント、修正などの詳細な情報を抽出します。
- 人気のある標準との互換性: IPTC、XMP、EXIF、イメージリソースなどの主要なメタデータ標準を扱います。
- マルチメディアメタデータ処理: 各形式のネイティブメタデータプロパティを操作し、マルチメディアファイルから技術情報を抽出します。
- ドキュメント統計の計算: ドキュメントの単語数や文字数などの一般的なドキュメント統計を計算します。
- ファイル形式の検出: ファイルの内部構造に基づいてファイル形式と MIME タイプを特定します。
- オーディオタグのサポート: ID3、Lyrics、APE などのさまざまなオーディオタグを管理します。
一般的な使用例
以下は、Python アプリケーションでの GroupDocs.Metadata の一般的な使用例と、対応するコードスニペットです。
使用例 1: 画像からメタデータを取得
この例では、特定の基準に基づいて画像ファイル(例: image.jpg
)のメタデータプロパティを取得します。
- メタデータオブジェクトを初期化する: ファイルを使用して Metadata クラスの新しいインスタンスを作成します。
- 検索基準を定義する: 特定のプロパティを検索するための検索仕様を使用します。
- メタデータを取得して表示する: 一致するプロパティを取得し、その名前と値をログに記録します。
import os
import groupdocs.metadata as gm
from datetime import datetime
def run():
with gm.Metadata("image.jpg") as metadata:
# ファイル形式が知られているか、ドキュメントが暗号化されていないかを確認します
if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
# すべてのプロパティを検索するための検索仕様を定義します
specification = gm.search.AnySpecification()
# 検索仕様に基づいてプロパティを検索します
properties = metadata.find_properties(specification)
# 検索されたプロパティを反復処理し、その名前と値を表示します
for property in properties:
# 複雑なデータ型を処理するために interpreted_value プロパティを使用します
if not (property.interpreted_value is None):
print(f"Property name: {property.name}, Property value: {property.interpreted_value}")
else:
print(f"Property name: {property.name}, Property value: {property.value}")
使用例 2: ドキュメントからメタデータをクリーンアップ
ここでは、PDF ドキュメントから不要なメタデータをクリーンアップします。
- PDF を読み込む: PDF ファイル用の Metadata オブジェクトを作成します。
- メタデータをクリーンアップする: 検出されたメタデータパッケージを削除します。
- クリーンなドキュメントを保存する: クリーンなドキュメントを新しいファイルに保存します。
import groupdocs.metadata as gm
def run():
with gm.Metadata("input.pdf") as metadata:
# 検出されたメタデータパッケージを削除し、削除されたプロパティをログに記録します
affected = metadata.sanitize()
print(f"Properties removed: {affected}")
# クリーンな PDF を保存します
metadata.save("output.pdf")
使用例 3: ドキュメントのメタデータを更新
この例では、ドキュメントの著作権メタデータを更新する方法を示します — 例えば、新しい年が始まったときです。このプロセスには、3 つの主要なステップが含まれます:
- ドキュメントを読み込む: ドキュメントファイル用の Metadata オブジェクトを初期化します。
- 新しいプロパティを設定する: ドキュメントの著作権メタデータを更新します。
- 更新されたドキュメントを保存する: ファイルに変更を保存します。
import os
import groupdocs.metadata as gm
import pathlib
from datetime import datetime
def run():
files = os.listdir(input_dir_path)
for file in files:
with gm.Metadata(input_dir_path + file) as metadata:
if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
print()
print(file)
# 著作権プロパティを検索するための検索仕様を定義します
specification = gm.search.ContainsTagSpecification(gm.tagging.Tags.legal.copyright)
# 著作権プロパティを新しい値に設定します
affected = metadata.set_properties(specification, gm.common.PropertyValue("Copyright (C) 2011-2025 Your Company. All Rights Reserved."))
print(f"Affected properties: {affected}")
# 更新されたファイルを保存します
metadata.save(output_dir_path + "output" + pathlib.Path(file).suffix)
無料トライアルから始める
デフォルトでは、ライブラリはライセンスなしでトライアルモードで動作し、基本的な機能と機能を探索することができます。GroupDocs Releases ページから GroupDocs.Metadata for Python via .NET をダウンロードできます。
また、このリンクから一時的なライセンスを取得することもできます。一時ライセンスを使用すると、ライブラリを制限なく使用し、その機能を完全に探索することができます。
関連項目
GroupDocs.Metadata とその機能についてさらに深く理解し、さらに多くの洞察を得るには、以下のリソースを参照してください: