ทุกองค์กรทำงานกับเอกสาร — และกับสคริปต์ที่เปราะบางซึ่งย้ายเอกสารระหว่างรูปแบบต่าง ๆ รายงาน Word กลายเป็น PDF, สเปรดชีตกลายเป็น CSV, การสแกนกลายเป็นไฟล์ที่ค้นหาได้ ทุกรูปแบบหรือกฎใหม่หมายถึงการเขียน pipeline ใหม่ มีวิธีที่ยืดหยุ่นกว่า: ให้ AI agent ทำการแปลงบนโครงสร้างพื้นฐานของคุณเองโดยใช้เครื่องมือที่คุณมอบให้ บทความนี้แสดงวิธีสร้างสิ่งนั้นด้วย n8n, Model Context Protocol (MCP), และ GroupDocs.Conversion MCP server — ทำให้เอกสารของคุณ (และโดยเลือก AI model ของคุณ) อยู่บน‑premise ทั้งหมด
จาก pipeline ที่เขียนโค้ดตายตัวสู่การทำงานอัตโนมัติแบบ agentic
การทำอัตโนมัติแบบดั้งเดิมจะเข้ารหัส วิธี ที่งานทำ: ตรวจจับประเภทไฟล์, แยกสาขา, เรียกตัวแปลง, จัดการข้อผิดพลาด, เขียนผลลัพธ์ ทุกความต้องการใหม่ต้องเปลี่ยนโค้ด
workflow agentic จะเข้ารหัส สิ่งที่ คุณต้องการ คุณระบุเป้าหมาย — “แปลงรายงานเหล่านี้เป็น PDF แต่ตรวจสอบจำนวนหน้าแรก” — แล้วเปิดเผยชุด tools AI agent จะตัดสินใจว่าเรียกเครื่องมือใดและเรียกในลำดับใด และปรับตัวตามผลลัพธ์ เพิ่มเครื่องมือใหม่และ agent สามารถใช้ได้ทันทีโดยไม่ต้องต่อสายใหม่ ความสามารถในการปรับตัวนี้คือจุดมุ่งหมายทั้งหมด
MCP คืออะไร และทำไมจึงสำคัญที่นี่
ส่วนที่ยากของ agent ที่ใช้เครื่องมือคือการบูรณาการ — แต่ละ agent พูดคุยกับแต่ละเครื่องมือต่างกัน Model Context Protocol เป็นมาตรฐานเปิดที่เป็นกลางต่อผู้ขายซึ่งแก้ไขปัญหานี้: agent ใด ๆ ที่รองรับ MCP สามารถค้นหาและเรียกความสามารถของเซิร์ฟเวอร์ MCP ใดก็ได้ คิดว่าเป็น “USB‑C สำหรับเครื่องมือ AI”
GroupDocs เผยแพร่การดำเนินการเอกสารเป็นเซิร์ฟเวอร์ MCP เซิร์ฟเวอร์ GroupDocs.Conversion เปิดเผยสามเครื่องมือที่ agent สามารถเรียกใช้ได้:
| เครื่องมือ | ทำอะไร |
|---|---|
convert |
แปลงเอกสารเป็นรูปแบบอื่น (PDF, DOCX, XLSX, PPTX, HTML, PNG, CSV… มากกว่า 70 รูปแบบ) |
get_document_info |
ตรวจสอบไฟล์ — ประเภท, จำนวนหน้า, คุณสมบัติ — ก่อนดำเนินการ |
get_supported_formats |
ค้นหาว่าการแปลงใดบ้างที่เป็นไปได้ |
เพราะมันสื่อสารด้วย MCP, agent ของคุณไม่ต้องการการบูรณาการ GroupDocs แบบกำหนดเอง เพียงเห็นเครื่องมือเหล่านี้
สถาปัตยกรรม (ทั้งหมดเป็นโอเพนซอร์ส, นำ LLM ของคุณมาใช้)
| ชั้น | ส่วนประกอบ | บทบาท |
|---|---|---|
| Orchestration | n8n (self‑hosted) | ตัวกระตุ้น, โหนด AI Agent, การกำหนดเส้นทางไฟล์ |
| Reasoning | LLM ของคุณ, ผ่านโหนด Chat Model ของ n8n | ตัดสินใจว่าเครื่องมือใดจะเรียก — สามารถสลับได้เต็มที่ |
| Tools | GroupDocs.Conversion MCP (stdio) อยู่หลัง supergateway | convert, get_document_info, get_supported_formats |
| Storage | shared Docker volume | วิธีที่ไฟล์ไหลเข้าและออก |
การออกแบบสำคัญ: LLM สามารถเปลี่ยนได้ โหนด Chat Model ของ n8n ไม่จำกัดผู้ให้บริการ ดังนั้น agent และเครื่องมือ MCP จะไม่เปลี่ยนเมื่อคุณสลับโมเดล ตัวอย่างด้านล่างใช้ OpenAI, แต่ workflow เดียวกันทำงานบน Azure OpenAI, Anthropic, AWS Bedrock — หรือโมเดลที่โฮสต์เองเต็มรูปแบบ (Ollama, vLLM) เมื่อคุณต้องการการปรับใช้แบบ air‑gapped ที่เอกสาร และ AI อยู่ภายในเครือข่ายของคุณ
หมายเหตุการบูรณาการหนึ่ง: Conversion MCP เป็นเซิร์ฟเวอร์ stdio ที่มีน้ำหนักเบา (เป็นค่าเริ่มต้นที่ปลอดภัย, ไม่ใช้เครือข่าย) เนื่องจาก n8n เชื่อมต่อกับเครื่องมือ MCP ผ่าน URL, stdio‑to‑SSE bridge แบบโอเพนซอร์สเล็ก ๆ (supergateway) จะเปิดให้เข้าถึงผ่านพอร์ต เซิร์ฟเวอร์เองไม่ได้เปลี่ยนแปลง
วิธีที่ workflow ทำงาน
- Trigger — webhook, อีเมลขาเข้า, การอัปโหลดฟอร์ม, หรือโฟลเดอร์ที่เฝ้าดูรับเอกสาร
- Stage — n8n เขียนไฟล์ลงในโฟลเดอร์ storage ที่แชร์ซึ่งเซิร์ฟเวอร์ MCP อ่านจากนั้น
- Reason — AI Agent ของ n8n (Chat Model ของคุณ + Conversion MCP เป็นเครื่องมือ) รับคำสั่งเช่น “แปลง report.docx เป็น PDF และรายงานจำนวนหน้า” มันจะเรียก
get_document_infoแล้วตามด้วยconvertโดยอัตโนมัติ - Deliver — n8n ดึงไฟล์ที่แปลงแล้วจาก storage ที่แชร์และส่งต่อ — อีเมล, object storage, SharePoint, หรือการตอบกลับเดิม
agent เลือกเครื่องมือและลำดับการเรียก นั่นคือเหตุผลที่ workflow เดียวสามารถจัดการ “แค่แปลงนี้”, “แปลงเฉพาะถ้ามีมากกว่า 10 หน้า”, หรือ “แปลงและสรุป” ได้
ติดตั้งในไม่กี่นาที
สแต็กขั้นต่ำคือสองบริการที่แชร์โวลุ่มเดียว — ตัวแปลง (อยู่หลัง bridge) และ n8n:
services:
conversion-mcp: # GroupDocs.Conversion MCP, exposed over SSE
build: ./bridge # supergateway --stdio "groupdocs-conversion-mcp" --port 8000
environment:
GROUPDOCS_MCP_STORAGE_PATH: /data
GROUPDOCS_LICENSE_PATH: /license/GroupDocs.Total.lic
volumes: [ ./data:/data, ./gd-license:/license:ro ]
n8n:
image: n8nio/n8n:latest
ports: ["5678:5678"]
volumes: [ ./data:/data ] # SAME folder — the file hand‑off
จากนั้นใน n8n สร้าง agent ด้วยสี่โหนด: Chat Trigger, Chat Model (ข้อมูลประจำตัว OpenAI ของคุณ), เครื่องมือ MCP Client ชี้ไปที่ http://conversion-mcp:8000/sse, และ AI Agent ที่เชื่อมต่อพวกมันเข้าด้วยกัน วางไฟล์ลงใน ./data, เปิดแชท, แล้วขอให้ agent แปลงไฟล์
การตั้งค่าที่สมบูรณ์และสามารถรันได้ —
docker-compose.yml, ภาพ bridge, และ workflow ของ n8n ที่สามารถนำเข้าได้ — อยู่ในคลังโอเพนซอร์สที่เป็นคู่มือ (ดูด้านล่าง)
การให้สิทธิ์ใช้งาน
หากไม่มีลิขสิทธิ์ GroupDocs.Conversion จะทำงานใน evaluation mode: ผลลัพธ์จะมีลายน้ำและอาจจำกัดการใช้งาน สำหรับการผลิตให้ใส่ไฟล์ GroupDocs.Total.lic ลงในโฟลเดอร์ลิขสิทธิ์ที่เมานท์ — ผลลัพธ์จะสะอาดและไม่มีข้อจำกัด คุณสามารถ request a temporary license เพื่อทดลองผลลัพธ์ที่มีลิขสิทธิ์
ทำไมวิธีนี้เหมาะกับองค์กร
- Data sovereignty — เอกสารและเอนจินแปลงอยู่บนโครงสร้างพื้นฐานของคุณ เลือกโมเดลที่โฮสต์เองและ AI ก็ทำเช่นเดียวกัน
- No lock‑in — ทุกชั้นเป็นโอเพนซอร์สหรืออิงมาตรฐาน (MCP) สามารถสลับ LLM, orchestrator, หรือเครื่องมือได้อย่างอิสระ
- Auditability — การตัดสินใจของ agent และการเรียกเครื่องมือแต่ละครั้งเป็นการดำเนินการของ n8n ที่มองเห็นและสามารถเล่นซ้ำได้
- Composability — นี่คือประโยชน์ที่ทบกัน ให้ agent เดียวเดียวชี้ไปยังเซิร์ฟเวอร์ MCP ของ GroupDocs ตัวอื่น — Redaction, Watermark, Metadata — แล้วคำขอภาษาแบบธรรมชาติหนึ่งคำสั่งจะกลายเป็น pipeline เต็มรูปแบบ: “ลบข้อมูลส่วนบุคคล, แปลงเป็น PDF, แล้วใส่ลายน้ำ ‘Confidential’.”
เริ่มต้นใช้งาน
- Demo โอเพนซอร์สคู่มือ: GroupDocs.Conversion.Agentic — คัดลอก, เพิ่มคีย์ LLM ของคุณ,
docker compose up, แล้วเริ่มพูดคุยกับเอกสารของคุณ - NuGet:
GroupDocs.Conversion.Mcp - Docker image:
ghcr.io/groupdocs-conversion/conversion-net-mcp - เรียนรู้เพิ่มเติมเกี่ยวกับ MCP: modelcontextprotocol.io
การทำอัตโนมัติเอกสารแบบ agentic ไม่ใช่แนวคิดไกลโพ้น — เพียง docker compose up เท่านั้น ที่สร้างจากส่วนประกอบที่คุณสามารถอ่าน, โฮสต์, และเชื่อถือ ให้ AI agent ของคุณมีความสามารถในการแปลงเอกสาร ตามเงื่อนไขของคุณเอง.