Bu proje, ağ trafiği yoğunluğunu öngörmek ve ağ altyapılarının kapasite planlamasını iyileştirmek amacıyla hazırlanmıştır. Dijitalleşmenin hızlanmasıyla birlikte video akışı, bulut tabanlı hizmetler ve uzaktan eğitim gibi yüksek bant genişliği gerektiren uygulamalar ağları zorlamaktadır. Önceden yapılacak doğru tahminler, tıkanıklıkları azaltarak hizmet kalitesinin sürekliliğine ve kaynakların etkin kullanımına katkı sağlar.
Çalışmada CESNET‐TimeSeries24 veri seti kullanılmıştır. Bu veri seti, Çekya’nın CESNET3 akademik ağında 40 hafta boyunca gözlemlenen trafik akışlarından oluşturulmuştur. Veri setinin başlıca özellikleri:
- İzlenen IP adresi sayısı: 275 binin üzerinde aktif adres
- Kapsanan süre: 40 hafta
- Toplam veri hacmi: yaklaşık 66 milyar IP akışı, 4 trilyon paket ve 3,7 petabayt veri
- Kaynak: Çekya Bilim ve Eğitim Ağı (CESNET3)
Veri seti saatlik aralıklarla oluşturulan zaman serileri içerir; böylece hem kısa hem de uzun dönem için tahmin modellerinin eğitilmesine olanak tanır.
Üç farklı yaklaşım karşılaştırılmıştır:
- SARIMAX: Mevsimsel ARIMA’nın bir türevi olan bu istatistiksel model, seri içi yapı ve mevsimselliği parametrelerle tanımlar. Model, dar veri pencerelerinde düşük hata üretebilse de uzun dönem genellenebilirliği sınırlıdır.
- FLAML (AutoML): Genellikle LightGBM gibi gradyan artırmalı karar ağaçlarını kullanan ve hiperparametre aramasını otomatikleştiren bir AutoML çerçevesidir. Tüm veri üzerinde tek model kurulabilir veya kayan pencere yaklaşımı uygulanabilir. FLAML, hem kısa hem uzun dönem tahminlerde uygulanabilir fakat eğitim süresi veri büyüklüğüne bağlı olarak artabilir.
- AutoTS: Zaman serilerine özel AutoML yaklaşımıdır. Genetik algoritma ile model ve parametre araması yapar, çeşitli temel modellerin (ARIMA, ETS, Prophet vb.) birleştirilmesini sağlar ve çapraz doğrulama kullanır. Kısa ve uzun dönem senaryolarda dengeli sonuçlar verir, ancak büyük veri hacimlerinde işlem süresi artabilir.
Her model, RMSE (Kök Ortalama Kare Hata), SMAPE (Simetrik Ortalama Yüzde Hata) ve R² (Açıklanan Varyans) metrikleriyle değerlendirilmiştir. Tahminler hem kısa dönem (birkaç gün) hem de uzun dönem (birkaç hafta) için yapılmıştır. Elde edilen başlıca sonuçlar aşağıda özetlenmiştir:
| Model – Dönem | RMSE | SMAPE (%) | R² Skoru |
|---|---|---|---|
| SARIMAX – Kısa | – | – | – |
| SARIMAX – Uzun | 12 095,77 | 46,36 | 0,72 |
| FLAML – Kısa | 1 475 532,82 | 29,72 | 0,87 |
| FLAML – Uzun | 1 543 040,77 | 46,50 | 0,69 |
| AutoTS – Kısa | 1 868 268,16 | 32,87 | 0,78 |
| AutoTS – Uzun | 1 614 571,09 | 46,83 | 0,66 |
- Kısa vadeli tahminlerde AutoML yöntemleri (özellikle FLAML), klasik istatistiksel modellere göre daha başarılıdır.
- Uzun vadeli tahminlerde tüm modellerin performansında düşüş görülmüş, bu durum zaman serisinin geleceğe yönelik belirsizliklerinin artmasıyla ilişkilendirilmiştir.
- Hafta sonları ve resmi tatiller gibi dışsal takvim değişkenleri, ağ trafiğinin davranışını önemli ölçüde etkilediği için modellerin tahmin hatalarını artırmıştır. Bu nedenle gelecekteki çalışmalar için takvim etkilerinin modele dahil edilmesi önerilmektedir.
- Proje, AutoML yaklaşımlarının manuel modelleme yükünü azaltarak ağ trafiği tahmini çalışmalarında verimli şekilde kullanılabileceğini göstermektedir.
Bu depoda proje için kullanılan Jupyter not defterleri, deneylerde kullanılan kodlar, modellerin eğitim ve test çıktıları ile sunum dosyaları bulunmaktadır. Aşağıdaki ana dosyalar ve klasörler mevcuttur:
automl(autots).ipynb: AutoTS modeliyle yapılan zaman serisi tahmin deneyleri.automl(flaml).ipynb: FLAML çerçevesiyle yapılan AutoML deneyleri.sarıma-(n_packet).ipynb: SARIMAX modelinin uygulanması ve değerlendirilmesi.docs/: Çalışmanın ayrıntılı raporu ve sunum dosyaları.
Proje ile ilgili sorularınız veya katkı yapmak için çekinmeden issue açabilirsiniz.
🔗 Veri Seti Kaynağı: Koumar, J., Hynek, K., Čejka, T., & Šiška, P. (2024). CESNET-TimeSeries24: Time Series Dataset for Network Traffic Anomaly Detection and Forecasting [Data set]. Zenodo. https://doi.org/10.5281/zenodo.13382427