Paperclip + OpenCode + LiteLLM: 20 Model ile Multi-Agent Pipeline Kurulumu

Tek Bir Günde Ne Yaptık?

Sabah “birkaç model ekleyelim” diye başladık, akşam 20 model, 5 agent, 4 routine ve bir “Council of Models” pipeline’ı ile kapattık. Bu yazıda, Paperclip + OpenCode + LiteLLM üçlüsü ile nasıl production-ready bir multi-agent sistemi kurduğumu anlatıyorum.

Tech Stack

Paperclip (Orchestrator) → OpenCode (Executor) → LiteLLM (Router) → 20 Model

Üç bileşen, birbirine bağlı, hepsi local çalışıyor:

Paperclip (localhost:3100): Agent orchestration, issue management, routines
OpenCode (v1.2.20): Agent executor, CLI-based coding agent
LiteLLM (Docker, port 4000): Multi-model proxy, 20 model tek endpoint’te

20 Model, Tek Endpoint

LiteLLM proxy’si sayesinde tüm modeller tek bir OpenAI-uyumlu endpoint’te toplandı:

Groq (Hızlı İşler)

groq-llama-3.3-70b-versatile — Ana kodlama modeli (0.2sn response)
groq-llama-3.1-8b-instant — En hızlı, basit sorular (0.1sn)
groq-qwen/qwen3-32b — Dengeli performans

HuggingFace Router (Geniş Seçenek)

hf-deepseek-v3 — Derin analiz
hf-kimi-k2.5 — 256K context, reasoning model
hf-minimax-m2.7 — 229B MoE, güçlü coding
hf-gemma-3-27b — Google’ın multimodal modeli
hf-llama-4-scout — Meta’nın en yeni modeli

Z.AI (Ücretsiz)

glm-4.5-air — $0.20/$1.10, reasoning destekli

Diğer

grok-4 (Replicate), hermes4-modal (Modal), SambaNova modelleri

Council of Models Pipeline

Bu kimsenin aklına gelmeyen bir fikir: Aynı task’i 4 farklı “kişilik” olarak modele gönder, 4 perspektif al, sentezle.

CEO (Kimi K2.5) → Task Alır
    ├── Groq Coder → Hızlı taslak (0.2sn)
    ├── Kimi Thinker → Derin analiz (5sn)
    ├── DeepSeek Analyst → Veri/rakip analizi (2sn)
    └── GLM Free → Son kontrol ($0 maliyet)
CEO → Sentez → Final Output

Neden işe yarıyor:

Her model farklı güçlü yanlara sahip
Paralel çalışma → toplam süre ~10sn
Maliyet minimize (GLM Free $0)
4 perspektif = daha kaliteli output

Token Tasarrufu Stratejisi

AI agent kullanmanın en büyük sorunu: maliyet. İki otomatik çözüm kurduk:

1. Daily Session Archiving (Her gece 23:00)

Günün özetini çıkarır
Neo4j memory’ye kaydeder
Yeni güne temiz başlangıç

2. Context Reset Trigger (Her saat)

15+ mesaj olunca özetleme
Eski mesajları sıkıştır
Token kullanımını %50-70 azaltır

Model Routing Mantığı

Her task türü için en uygun model otomatik seçilir:

Task Türü	Model	Neden
Kodlama	Groq 70B	Hızlı (0.2sn), güçlü
Analiz	DeepSeek V3	Veri odaklı
Strateji	Kimi K2.5	Derin reasoning
Basit soru	Groq 8B	En hızlı (0.1sn)
Ücretsiz	GLM-4.5-Air	$0 maliyet

ClawShell: API Key Güvenliği

Tüm API key’leri ClawShell (Rust-based security proxy) tarafından korunuyor:

Hermes Agent → ClawShell(:18790) → LiteLLM(:4000) → Modeller

DLP (Data Loss Prevention) kuralları:

SSN, kredi kartı → otomatik redact
TC kimlik no → block
Email, telefon → redact

Sonuç

Bir günde kurulan sistem:

✅ 20 model (Groq, HuggingFace, Z.AI, SambaNova, Replicate, Modal)
✅ 5 agent (CEO, Groq Coder, Kimi Thinker, GLM Free, DeepSeek Analyst)
✅ 4 routine (Daily Trends, Bodrum Trends, Tech Audit, Cost Optimization)
✅ 9 skill (Serper.dev, Web Extract, Council Pipeline, Token Tracker…)
✅ 2 cron job (Session Archiving, Context Reset)
✅ ClawShell security proxy

Toplam maliyet: $0 (mevcut kredilerle)

Tech stack: Paperclip + OpenCode + LiteLLM. Hepsi local. Hepsi birbirine bağlı.

Bu yazı da Council of Models pipeline’ı ile oluşturuldu: Groq hızlı taslak, Kimi derin analiz, DeepSeek veri, GLM son kontrol.