문서 자동화에서 메타데이터 관리는 다양한 문서 형식과 작업하는 애플리케이션에 특히 중요합니다. 이 글에서는 Python 애플리케이션에서 메타데이터를 관리하는 방법을 살펴보겠습니다. 여기서는 메타데이터를 추출, 수정 및 제거하는 데 중점을 둡니다.

이 가이드에서는 다음 섹션을 탐색합니다:

  1. GroupDocs.Metadata란 무엇이며 어떻게 도움이 되는가?
  2. 설치 방법
  3. 빠른 시작 가이드
  4. 주요 기능
  5. 일반적인 사용 사례
  6. 무료 체험 시작하기
  7. 참고

GroupDocs.Metadata란 무엇이며 어떻게 도움이 되는가?

GroupDocs.Metadata for Python via .NET은 Python 애플리케이션에서 다양한 문서 형식의 메타데이터를 관리하는 데 도움이 되는 강력한 라이브러리입니다. Python은 파일 크기, 유형 및 속성과 같은 기본 메타데이터를 추출하는 네이티브 방법을 제공하지만, 특정 파일 형식과 관련된 더 복잡한 메타데이터를 처리하는 데는 부족합니다.

GroupDocs.Metadata는 PDF, Microsoft Office 형식, 이미지, 오디오, 비디오 및 기타 많은 파일에서 메타데이터를 검색, 업데이트 및 제거할 수 있도록 하여 이 간극을 메우며, 작성자, 제목, 파일 형식의 특정 속성(예: GPS 위치 데이터 포함) 및 기타 많은 세부 정보를 포함하여 자세한 정보를 제공합니다. 직관적인 API를 통해 GroupDocs.Metadata는 문서 자동화 및 데이터 처리 시나리오를 효과적으로 처리할 수 있도록 메타데이터를 조작할 수 있습니다.

설치 방법

GroupDocs.Metadata for Python via .NET은 pip를 사용하여 쉽게 설치할 수 있습니다. 다음 명령어를 사용하여 Python 프로젝트에 API를 참조할 수 있습니다:

pip install groupdocs-metadata-net

빠른 시작 가이드

GroupDocs.Metadata for Python via .NET을 사용하는 것은 예제 프로젝트를 통해 빠르고 간단합니다. 다음은 설정하는 데 도움이 되는 간단한 가이드입니다:

  1. 저장소 복제: 예제 저장소를 로컬 머신에 복제합니다.

    git clone https://github.com/groupdocs-metadata/GroupDocs.Metadata-for-Python-via-.NET.git
    
  2. 예제 폴더로 이동:

    cd ./GroupDocs.Metadata-for-Python-via-.NET/
    
  3. 필요한 패키지 설치:

    pip install groupdocs-metadata-net
    
  4. 예제 실행:

    python run_examples.py
    

이렇게 하면 GroupDocs.Metadata 라이브러리의 다양한 기능을 시연하는 예제 스크립트 시리즈가 실행됩니다.

주요 기능

GroupDocs.Metadata for Python via .NET은 문서 메타데이터를 다루는 개발자에게 유용한 API로 다양한 기능을 갖추고 있습니다. 다음은 주요 기능입니다:

  • 메타데이터 관리 기능이 풍부한 세트: 다양한 문서 형식에서 메타데이터를 읽고 업데이트 및 제거합니다.
  • 대상 속성 조작: 특정 기준을 충족하는 특정 메타데이터 속성을 검색, 업데이트 및 삭제합니다.
  • 통합된 속성 관리: 태그를 사용하여 일반적인 메타데이터 속성을 일관된 방식으로 쉽게 조작합니다.
  • 암호 보호 문서 지원: 민감한 데이터가 있는 문서와도 유연하게 작업할 수 있습니다.
  • 문서 속성 통찰력: 숨겨진 페이지, 디지털 서명, 사용자 주석, 수정 사항 등 자세한 문서 정보를 추출합니다.
  • 인기 있는 표준과의 호환성: IPTC, XMP, EXIF 및 이미지 리소스와 같은 주요 메타데이터 표준을 사용합니다.
  • 멀티미디어 메타데이터 처리: 다양한 형식의 네이티브 메타데이터 속성을 조작하고 멀티미디어 파일에서 기술 정보를 추출합니다.
  • 문서 통계 계산: 문서의 단어 수 및 문자 수와 같은 일반적인 문서 통계를 계산합니다.
  • 파일 형식 감지: 파일의 내부 구조를 기반으로 파일 형식 및 MIME 유형을 식별합니다.
  • 오디오 태그 지원: ID3, Lyrics 및 APE와 같은 다양한 오디오 태그를 관리합니다.

일반적인 사용 사례

다음은 Python 애플리케이션에서 GroupDocs.Metadata의 일반적인 사용 사례와 해당 코드 스니펫입니다.

사용 사례 1: 이미지에서 메타데이터 가져오기

이 예제에서는 특정 기준에 따라 이미지 파일(예: image.jpg)의 메타데이터 속성을 가져옵니다.

  1. 메타데이터 객체 초기화: 파일을 사용하여 Metadata 클래스의 새 인스턴스를 만듭니다.
  2. 검색 기준 정의: 특정 속성을 찾기 위해 검색 사양을 사용합니다.
  3. 메타데이터 가져오기 및 표시: 일치하는 속성을 검색하고 이름 및 값을 기록합니다.
import os
import groupdocs.metadata as gm
from datetime import datetime

def run():
    with gm.Metadata("image.jpg") as metadata:
        # 파일 형식이 알려져 있고 문서가 암호화되지 않았는지 확인합니다.
        if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
            # 모든 속성을 찾기 위해 검색 사양을 정의합니다.
            specification = gm.search.AnySpecification()
            # 검색 사양을 기반으로 속성을 찾습니다.
            properties = metadata.find_properties(specification)
            # 찾은 속성을 반복하고 이름 및 값을 출력합니다.
            for property in properties:
                # 복잡한 데이터 유형을 처리하려면 interpreted_value 속성을 사용합니다.
                if not (property.interpreted_value is None):
                    print(f"Property name: {property.name}, Property value: {property.interpreted_value}")
                else:
                    print(f"Property name: {property.name}, Property value: {property.value}")

사용 사례 2: 문서에서 메타데이터 정리

여기서는 PDF 문서에서 불필요한 메타데이터를 정리합니다.

  1. PDF 로드: PDF 파일에 대한 Metadata 객체를 만듭니다.
  2. 메타데이터 정리: 검출된 메타데이터 패키지를 제거합니다.
  3. 정리된 문서 저장: 정리된 문서를 새 파일에 저장합니다.
import groupdocs.metadata as gm

def run():
    with gm.Metadata("input.pdf") as metadata:
        # 검출된 메타데이터 패키지를 제거하고 제거된 속성을 기록합니다.
        affected = metadata.sanitize()
        print(f"Properties removed: {affected}")
        # 정리된 PDF 저장
        metadata.save("output.pdf")

사용 사례 3: 문서 메타데이터 업데이트

이 예제에서는 문서의 저작권 메타데이터를 업데이트하는 방법을 보여줍니다. 예를 들어, 새로운 해가 시작될 때.

이 과정에는 세 가지 주요 단계가 포함됩니다:

  1. 문서 로드: 문서 파일에 대한 Metadata 객체를 초기화합니다.
  2. 새 속성 설정: 문서의 저작권 메타데이터를 업데이트합니다.
  3. 업데이트된 문서 저장: 파일에 변경 사항을 저장합니다.
import os
import groupdocs.metadata as gm
import pathlib
from datetime import datetime

def run():
    files = os.listdir(input_dir_path)
    for file in files:
        with gm.Metadata(input_dir_path + file) as metadata:
            if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
                print()
                print(file)

                # 저작권 속성을 찾기 위해 검색 사양을 정의합니다.
                specification = gm.search.ContainsTagSpecification(gm.tagging.Tags.legal.copyright)
                # 저작권 속성을 새 값으로 설정합니다.
                affected = metadata.set_properties(specification, gm.common.PropertyValue("Copyright (C) 2011-2025 Your Company. All Rights Reserved."))
                print(f"Affected properties: {affected}")
                # 업데이트된 파일을 저장합니다.
                metadata.save(output_dir_path + "output" + pathlib.Path(file).suffix)

무료 체험 시작하기

기본적으로 라이브러리는 라이선스 없이 작동하여 기본 기능과 기능을 탐색할 수 있습니다. GroupDocs Releases 페이지에서 GroupDocs.Metadata for Python via .NET을 다운로드할 수 있습니다.

또한 이 링크에서 임시 라이선스를 구매할 수 있습니다. 임시 라이선스는 라이브러리를 제한 없이 사용하고 모든 기능을 완전히 탐색할 수 있게 합니다.

참고

GroupDocs.Metadata 및 그 기능에 대해 더 깊이 있게 알아보고 더 많은 통찰력을 얻으려면 다음 리소스를 참조하세요: