Skip to content

Enes-berke/Ag-Trafik-Yogunlugu-Tahmini-AutoML

Repository files navigation

Network-Traffic-Density-Forecasting-AutoML

Bu proje, ağ trafiği yoğunluğunu öngörmek ve ağ altyapılarının kapasite planlamasını iyileştirmek amacıyla hazırlanmıştır. Dijitalleşmenin hızlanmasıyla birlikte video akışı, bulut tabanlı hizmetler ve uzaktan eğitim gibi yüksek bant genişliği gerektiren uygulamalar ağları zorlamaktadır. Önceden yapılacak doğru tahminler, tıkanıklıkları azaltarak hizmet kalitesinin sürekliliğine ve kaynakların etkin kullanımına katkı sağlar.

Veri Seti

Çalışmada CESNET‐TimeSeries24 veri seti kullanılmıştır. Bu veri seti, Çekya’nın CESNET3 akademik ağında 40 hafta boyunca gözlemlenen trafik akışlarından oluşturulmuştur. Veri setinin başlıca özellikleri:

  • İzlenen IP adresi sayısı: 275 binin üzerinde aktif adres
  • Kapsanan süre: 40 hafta
  • Toplam veri hacmi: yaklaşık 66 milyar IP akışı, 4 trilyon paket ve 3,7 petabayt veri
  • Kaynak: Çekya Bilim ve Eğitim Ağı (CESNET3)

Veri seti saatlik aralıklarla oluşturulan zaman serileri içerir; böylece hem kısa hem de uzun dönem için tahmin modellerinin eğitilmesine olanak tanır.

Kullanılan Modeller ve Yöntemler

Üç farklı yaklaşım karşılaştırılmıştır:

  1. SARIMAX: Mevsimsel ARIMA’nın bir türevi olan bu istatistiksel model, seri içi yapı ve mevsimselliği parametrelerle tanımlar. Model, dar veri pencerelerinde düşük hata üretebilse de uzun dönem genellenebilirliği sınırlıdır.
  2. FLAML (AutoML): Genellikle LightGBM gibi gradyan artırmalı karar ağaçlarını kullanan ve hiperparametre aramasını otomatikleştiren bir AutoML çerçevesidir. Tüm veri üzerinde tek model kurulabilir veya kayan pencere yaklaşımı uygulanabilir. FLAML, hem kısa hem uzun dönem tahminlerde uygulanabilir fakat eğitim süresi veri büyüklüğüne bağlı olarak artabilir.
  3. AutoTS: Zaman serilerine özel AutoML yaklaşımıdır. Genetik algoritma ile model ve parametre araması yapar, çeşitli temel modellerin (ARIMA, ETS, Prophet vb.) birleştirilmesini sağlar ve çapraz doğrulama kullanır. Kısa ve uzun dönem senaryolarda dengeli sonuçlar verir, ancak büyük veri hacimlerinde işlem süresi artabilir.

Değerlendirme Metrikleri

Her model, RMSE (Kök Ortalama Kare Hata), SMAPE (Simetrik Ortalama Yüzde Hata) ve (Açıklanan Varyans) metrikleriyle değerlendirilmiştir. Tahminler hem kısa dönem (birkaç gün) hem de uzun dönem (birkaç hafta) için yapılmıştır. Elde edilen başlıca sonuçlar aşağıda özetlenmiştir:

Model – Dönem RMSE SMAPE (%) R² Skoru
SARIMAX – Kısa
SARIMAX – Uzun 12 095,77 46,36 0,72
FLAML – Kısa 1 475 532,82 29,72 0,87
FLAML – Uzun 1 543 040,77 46,50 0,69
AutoTS – Kısa 1 868 268,16 32,87 0,78
AutoTS – Uzun 1 614 571,09 46,83 0,66

Sonuçlar ve Katkılar

  • Kısa vadeli tahminlerde AutoML yöntemleri (özellikle FLAML), klasik istatistiksel modellere göre daha başarılıdır.
  • Uzun vadeli tahminlerde tüm modellerin performansında düşüş görülmüş, bu durum zaman serisinin geleceğe yönelik belirsizliklerinin artmasıyla ilişkilendirilmiştir.
  • Hafta sonları ve resmi tatiller gibi dışsal takvim değişkenleri, ağ trafiğinin davranışını önemli ölçüde etkilediği için modellerin tahmin hatalarını artırmıştır. Bu nedenle gelecekteki çalışmalar için takvim etkilerinin modele dahil edilmesi önerilmektedir.
  • Proje, AutoML yaklaşımlarının manuel modelleme yükünü azaltarak ağ trafiği tahmini çalışmalarında verimli şekilde kullanılabileceğini göstermektedir.

Reponun İçeriği

Bu depoda proje için kullanılan Jupyter not defterleri, deneylerde kullanılan kodlar, modellerin eğitim ve test çıktıları ile sunum dosyaları bulunmaktadır. Aşağıdaki ana dosyalar ve klasörler mevcuttur:

  • automl(autots).ipynb: AutoTS modeliyle yapılan zaman serisi tahmin deneyleri.
  • automl(flaml).ipynb: FLAML çerçevesiyle yapılan AutoML deneyleri.
  • sarıma-(n_packet).ipynb: SARIMAX modelinin uygulanması ve değerlendirilmesi.
  • docs/: Çalışmanın ayrıntılı raporu ve sunum dosyaları.

Proje ile ilgili sorularınız veya katkı yapmak için çekinmeden issue açabilirsiniz.

🔗 Veri Seti Kaynağı: Koumar, J., Hynek, K., Čejka, T., & Šiška, P. (2024). CESNET-TimeSeries24: Time Series Dataset for Network Traffic Anomaly Detection and Forecasting [Data set]. Zenodo. https://doi.org/10.5281/zenodo.13382427

About

A project on forecasting network traffic density with AutoML frameworks (FLAML, AutoTS) and classical time-series models (SARIMAX). Includes short- and long-term forecasting experiments on the CESNET-TimeSeries24 dataset, model comparison (RMSE, SMAPE, R²), and insights into improving network efficiency, anomaly detection, and capacity planning.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors