Quản lý metadata là một phần quan trọng của tự động hóa tài liệu, đặc biệt là cho các ứng dụng làm việc với nhiều định dạng tài liệu khác nhau. Trong bài viết này, chúng ta sẽ xem xét cách quản lý metadata trong ứng dụng Python, với trọng tâm vào việc trích xuất, chỉnh sửa và xóa metadata.

Trong hướng dẫn này, chúng ta sẽ khám phá các phần sau:

  1. GroupDocs.Metadata là gì và nó giúp gì?
  2. Cách cài đặt
  3. Hướng dẫn bắt đầu nhanh
  4. Tính năng chính
  5. Các trường hợp sử dụng thường gặp
  6. Bắt đầu với phiên bản thử miễn phí
  7. Xem thêm

GroupDocs.Metadata là gì và nó giúp gì?

GroupDocs.Metadata for Python via .NET là một thư viện mạnh mẽ được thiết kế để giúp nhà phát triển quản lý metadata trên nhiều định dạng tài liệu trong ứng dụng Python. Trong khi Python cung cấp các phương thức bản địa để trích xuất metadata cơ bản như kích thước tệp, loại và thuộc tính, các phương thức này không đủ khi xử lý metadata phức tạp hơn liên quan đến các định dạng tệp cụ thể.

GroupDocs.Metadata điền vào khoảng trống này bằng cách cho phép người dùng trích xuất, cập nhật và xóa metadata từ các tệp như PDF, Microsoft Office formats, hình ảnh, âm thanh, video và nhiều loại khác. Nó cũng cho phép truy cập vào thông tin chi tiết như tác giả, tiêu đề, thuộc tính cụ thể của định dạng tệp, bao gồm dữ liệu vị trí GPS và nhiều thứ khác. Với một API đơn giản, GroupDocs.Metadata cho phép bạn thao tác với metadata hiệu quả để bao phủ nhiều tình huống tự động hóa tài liệu và xử lý dữ liệu.

Cách cài đặt

GroupDocs.Metadata for Python via .NET có thể được cài đặt dễ dàng bằng pip. Bạn có thể tham chiếu API của chúng tôi trong dự án Python của bạn bằng cách cài đặt nó với lệnh sau:

pip install groupdocs-metadata-net

Hướng dẫn bắt đầu nhanh

Bắt đầu với GroupDocs.Metadata for Python via .NET nhanh chóng và đơn giản với dự án ví dụ của chúng tôi. Đây là một hướng dẫn đơn giản để giúp bạn thiết lập:

  1. Clone kho lưu trữ: Clone kho lưu trữ ví dụ đến máy tính cục bộ của bạn.

    git clone https://github.com/groupdocs-metadata/GroupDocs.Metadata-for-Python-via-.NET.git
    
  2. Chuyển đến thư mục ví dụ:

    cd ./GroupDocs.Metadata-for-Python-via-.NET/
    
  3. Cài đặt các gói cần thiết:

    pip install groupdocs-metadata-net
    
  4. Chạy các ví dụ:

    python run_examples.py
    

Điều này sẽ thực thi một loạt các kịch bản ví dụ minh họa các chức năng khác nhau của thư viện GroupDocs.Metadata.

Tính năng chính

GroupDocs.Metadata for Python via .NET được trang bị một loạt các tính năng làm cho nó trở thành một API hữu ích cho các nhà phát triển làm việc với metadata tài liệu. Đây là một số tính năng chính:

  • Bộ sưu tập phong phú các tính năng quản lý metadata: Đọc, cập nhật và xóa metadata từ nhiều định dạng tài liệu.
  • Thao tác thuộc tính mục tiêu: Tìm kiếm, cập nhật và xóa các thuộc tính metadata cụ thể thỏa mãn các tiêu chí nhất định.
  • Quản lý thuộc tính thống nhất: Sử dụng thẻ để thao tác với các thuộc tính metadata phổ biến một cách nhất quán.
  • Hỗ trợ tài liệu bị bảo vệ bằng mật khẩu: Làm việc với tài liệu được bảo vệ, đảm bảo tính linh hoạt ngay cả với dữ liệu nhạy cảm.
  • Thông tin về thuộc tính tài liệu: Trích xuất thông tin chi tiết về trang ẩn, chữ ký số, bình luận người dùng, sửa đổi và nhiều thứ khác.
  • Tương thích với các tiêu chuẩn phổ biến: Làm việc với các tiêu chuẩn metadata hàng đầu như IPTC, XMP, EXIF và Image Resources.
  • Xử lý metadata đa phương tiện: Thao tác với thuộc tính metadata bản địa trong nhiều định dạng và trích xuất thông tin kỹ thuật từ tệp đa phương tiện.
  • Tính toán thống kê tài liệu: Tính toán các thống kê tài liệu thường gặp như số từ và số ký tự cho tài liệu của bạn.
  • Phát hiện định dạng tệp: Xác định định dạng và kiểu MIME của một tệp dựa trên cấu trúc nội bộ của nó.
  • Hỗ trợ thẻ âm thanh: Quản lý các thẻ âm thanh khác nhau, bao gồm ID3, Lyrics và APE.

Các trường hợp sử dụng thường gặp

Dưới đây là một số trường hợp sử dụng thường gặp cho GroupDocs.Metadata trong ứng dụng Python, cùng với các đoạn mã tương ứng.

Trường hợp sử dụng 1: Truy xuất metadata từ một hình ảnh

Trong ví dụ này, chúng ta sẽ lấy các thuộc tính metadata của một tệp hình ảnh (ví dụ: image.jpg) dựa trên các tiêu chí cụ thể.

  1. Khởi tạo đối tượng Metadata: Tạo một đối tượng mới của lớp Metadata với tệp của bạn.
  2. Định nghĩa tiêu chí tìm kiếm: Sử dụng một quy định tìm kiếm để tìm các thuộc tính cụ thể.
  3. Lấy và hiển thị metadata: Truy xuất các thuộc tính khớp và ghi log tên và giá trị của chúng.
import os
import groupdocs.metadata as gm
from datetime import datetime

def run():
    with gm.Metadata("image.jpg") as metadata:
        # Kiểm tra nếu định dạng tệp được biết đến và tài liệu không bị mã hóa
        if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
            # Định nghĩa một quy định tìm kiếm để tìm tất cả các thuộc tính
            specification = gm.search.AnySpecification()
            # Tìm thuộc tính dựa trên quy định tìm kiếm
            properties = metadata.find_properties(specification)
            # Lặp qua các thuộc tính tìm thấy và in tên và giá trị của chúng
            for property in properties:
                # Xử lý các kiểu dữ liệu phức tạp bằng cách sử dụng thuộc tính interpreted_value
                if not (property.interpreted_value is None):
                    print(f"Tên thuộc tính: {property.name}, Giá trị thuộc tính: {property.interpreted_value}")
                else:
                    print(f"Tên thuộc tính: {property.name}, Giá trị thuộc tính: {property.value}")

Trường hợp sử dụng 2: Dọn dẹp metadata từ một tài liệu

Ở đây chúng ta sẽ dọn dẹp metadata không mong muốn từ một tài liệu PDF.

  1. Tải PDF: Tạo một đối tượng Metadata cho tệp PDF.
  2. Làm sạch metadata: Xóa các gói metadata được phát hiện.
  3. Lưu tài liệu đã làm sạch: Lưu tài liệu đã làm sạch vào một tệp mới.
import groupdocs.metadata as gm

def run():
    with gm.Metadata("input.pdf") as metadata:
        # Xóa các gói metadata được phát hiện và ghi log các thuộc tính đã xóa
        affected = metadata.sanitize()
        print(f"Properties removed: {affected}")
        # Lưu PDF đã làm sạch
        metadata.save("output.pdf")

Trường hợp sử dụng 3: Cập nhật metadata tài liệu

Ví dụ này minh họa cách cập nhật metadata bản quyền của tài liệu của bạn — ví dụ như khi một năm mới bắt đầu. Quá trình này bao gồm ba bước chính:

  1. Tải tài liệu: Khởi tạo một đối tượng Metadata cho tệp tài liệu.
  2. Đặt thuộc tính mới: Cập nhật metadata bản quyền của tài liệu.
  3. Lưu tài liệu đã cập nhật: Lưu thay đổi vào tệp.
import os
import groupdocs.metadata as gm
import pathlib
from datetime import datetime

def run():
    files = os.listdir(input_dir_path)
    for file in files:
        with gm.Metadata(input_dir_path + file) as metadata:
            if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
                print()
                print(file)

                # Định nghĩa một quy định tìm kiếm để tìm thuộc tính bản quyền
                specification = gm.search.ContainsTagSpecification(gm.tagging.Tags.legal.copyright)
                # Đặt thuộc tính bản quyền thành giá trị mới
                affected = metadata.set_properties(specification, gm.common.PropertyValue("Copyright (C) 2011-2025 Your Company. All Rights Reserved."))
                print(f"Affected properties: {affected}")
                # Lưu tệp đã cập nhật
                metadata.save(output_dir_path + "output" + pathlib.Path(file).suffix)

Bắt đầu với phiên bản thử miễn phí

Mặc định, thư viện hoạt động trong chế độ thử không có giấy phép, cho phép bạn khám phá các tính năng cơ bản và chức năng của nó. Bạn có thể tải xuống GroupDocs.Metadata for Python via .NET từ trang GroupDocs Releases.

Ngoài ra, bạn có thể mua một giấy phép tạm thời từ đây. Giấy phép tạm thời cho phép bạn sử dụng thư viện mà không có bất kỳ hạn chế nào và khám phá đầy đủ các khả năng của nó.

Xem thêm

Để tìm hiểu sâu hơn và có thêm thông tin về GroupDocs.Metadata và các chức năng của nó, hãy tham khảo các tài nguyên sau: