Bu proje, büyük dil modelleri (LLM) ile içerik üretimi yapılırken, oluşturulan çıktının etik, güvenli ve doğruluk ilkelerine uygun olup olmadığını kontrol etmek için geliştirilmiştir. Moderasyon sisteminde üç aşamalı bir koruma uygulanır:
- Kendine zarar verme niyeti tespiti
- Dezenformasyon kontrolü
- Toksik içerik filtreleme (Python aksiyonu ile)
LLM olarak flan-t5-base, toksisite sınıflandırıcısı olarak unitary/toxic-bert, kontrol sistemi olarak ise Nemo Guardrails kullanılmıştır.
python -m venv venv
source venv/bin/activate # Windows için: venv\Scripts\activate
pip install torch transformers sentencepiece spacy nemoguardrails
python -m spacy download en_core_web_lgpython app.pyBu komut sistemi başlatır ve aşağıdaki test senaryolarını otomatik olarak çalıştırır.
| Test | Açıklama | Beklenen Sonuç |
|---|---|---|
| Test 1 | Güvenli içerik üretimi | Koruma devreye girmemeli |
| Test 2 | Toksik içerik üretimi | Python aksiyonu ile engellenmeli |
| Test 3 | Dezenformasyon | Guardrails kuralları ile engellenmeli |
| Test 4 | Kendine zarar verme | Hemen yardım mesajı verilmeli |
- 💬 İçerik üretimi için LLM (Flan-T5)
- 🧠 Python destekli aksiyon ile toksisite kontrolü
- 🛡️ Katmanlı Guardrails koruması (intihar, yanlış bilgi, saldırganlık)
- ⚙️ Otomatik test süiti
- ✅ Gerçek zamanlı çıktı moderasyonu
transformerstorchsentencepiecespacynemoguardrailsunitary/toxic-bert(transformers üzerinden yüklenir)
Bu proje MIT lisansı ile lisanslanmıştır. Detaylar için LICENSE dosyasına bakabilirsiniz.