Proste narzędzie do anonimizacji dokumentów, stworzone z myślą o ochronie danych wrażliwych w polskich umowach i pismach urzędowych.
Aplikacja zamienia zidentyfikowane dane wrażliwe (jak nazwiska, numery PESEL, adresy) na unikalne znaczniki (np. __PERSON_0__, __PESEL_0__). Dodatkowo generowany jest plik z mapą tokenów, który pozwala na odwrócenie tego procesu.
Uwaga: Aby zachować zgodność z RODO, plik z mapą tokenów nie powinien być udostępniany razem z zanonimizowanym dokumentem, gdyż umożliwia on odtworzenie oryginalnych danych.
Pełna specyfikacja projektu (BRD)
Aplikacja wymaga środowiska wirtualnego Python.
-
Utwórz i aktywuj środowisko wirtualne:
# Linux/macOS python3 -m venv venv source venv/bin/activate # Windows python -m venv venv .\\venv\\Scripts\\activate
-
Zainstaluj zależności:
pip install -r requirements.txt
Projekt oferuje trzy sposoby interakcji:
Idealny do automatyzacji i przetwarzania wsadowego.
Uruchomienie:
python3 janusz-cli.py [OPCJE]Dostępne opcj:
-h, --help pokaż pomoc i wyjdź
-i INPUT, --input INPUT
ścieżka do pliku źródłowego
-o OUTPUT, --output OUTPUT
ścieżka do pliku wyjściowego. Domyślnie <input>.anon.<ext>
Przykład:
python3 janusz-cli.py -i ./umowa.txtSpowoduje to utworzenie pliku umowa.anon.txt ze zanonimizowaną treścią oraz umowa.anon.map.json z mapą tokenów.
Graficzny interfejs użytkownika do pracy na pojedynczych plikach.
Uruchomienie:
python3 janusz-pyside.pyUmożliwia pracę przez przeglądarkę internetową, idealny do demonstracji
Uruchomienie:
python3 janusz-gradio.pyAplikacja będzie dostępna pod adresem: http://127.0.0.1:7860
