uprava vyberu nejhorsiho kriteria

adam-prokop · adam-prokop · commit 112de377f331 · 2026-03-23T23:57:36.000+01:00
diff --git a/kod/development.ipynb b/kod/development.ipynb
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 2,
    "id": "c509aba7",
    "metadata": {},
    "outputs": [],
@@ -29,8 +29,8 @@
     "from processing import *\n",
     "\n",
     "pl.Config.set_tbl_cols(-1)\n",
-    "# os.chdir(r'E:\\CVUT_BAP')\n",
-    "os.chdir(r'C:\\Users\\adamp\\Projects\\CVUT_BAP')"
+    "os.chdir(r'E:\\CVUT_BAP')\n",
+    "# os.chdir(r'C:\\Users\\adamp\\Projects\\CVUT_BAP')"
    ]
   },
   {
@@ -2142,11 +2142,48 @@
    "source": [
     "df['Obd_KomunikacniProtokol'].value_counts().sort(by='count')"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "0b906215",
+   "metadata": {},
+   "source": [
+    "# Analyza vzorku dat pro dalsi rozhodovani"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "d3894581",
+   "metadata": {},
+   "outputs": [
+    {
+     "ename": "FileNotFoundError",
+     "evalue": "The system cannot find the path specified. (os error 3): kod/data/data_z_mericich_pristroju/parquet/nafta_osobni",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[31m---------------------------------------------------------------------------\u001b[39m",
+      "\u001b[31mFileNotFoundError\u001b[39m                         Traceback (most recent call last)",
+      "\u001b[36mCell\u001b[39m\u001b[36m \u001b[39m\u001b[32mIn[3]\u001b[39m\u001b[32m, line 1\u001b[39m\n\u001b[32m----> \u001b[39m\u001b[32m1\u001b[39m df_mereni = cast_mereni(\u001b[43mpl\u001b[49m\u001b[43m.\u001b[49m\u001b[43mread_parquet\u001b[49m\u001b[43m(\u001b[49m\u001b[33;43m'\u001b[39;49m\u001b[33;43mkod/data/data_z_mericich_pristroju/parquet/nafta_osobni\u001b[39;49m\u001b[33;43m'\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mschema\u001b[49m\u001b[43m=\u001b[49m\u001b[43mnafta_schema\u001b[49m\u001b[43m)\u001b[49m).sample(fraction=\u001b[32m1.0\u001b[39m, shuffle=\u001b[38;5;28;01mTrue\u001b[39;00m, seed=SEED)\n\u001b[32m      2\u001b[39m describe(df_mereni)\n",
+      "\u001b[36mFile \u001b[39m\u001b[32me:\\CVUT_BAP\\.venv\\Lib\\site-packages\\polars\\_utils\\deprecation.py:128\u001b[39m, in \u001b[36mdeprecate_renamed_parameter.<locals>.decorate.<locals>.wrapper\u001b[39m\u001b[34m(*args, **kwargs)\u001b[39m\n\u001b[32m    123\u001b[39m \u001b[38;5;129m@wraps\u001b[39m(function)\n\u001b[32m    124\u001b[39m \u001b[38;5;28;01mdef\u001b[39;00m\u001b[38;5;250m \u001b[39m\u001b[34mwrapper\u001b[39m(*args: P.args, **kwargs: P.kwargs) -> T:\n\u001b[32m    125\u001b[39m     _rename_keyword_argument(\n\u001b[32m    126\u001b[39m         old_name, new_name, kwargs, function.\u001b[34m__qualname__\u001b[39m, version\n\u001b[32m    127\u001b[39m     )\n\u001b[32m--> \u001b[39m\u001b[32m128\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunction\u001b[49m\u001b[43m(\u001b[49m\u001b[43m*\u001b[49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43m*\u001b[49m\u001b[43m*\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32me:\\CVUT_BAP\\.venv\\Lib\\site-packages\\polars\\_utils\\deprecation.py:128\u001b[39m, in \u001b[36mdeprecate_renamed_parameter.<locals>.decorate.<locals>.wrapper\u001b[39m\u001b[34m(*args, **kwargs)\u001b[39m\n\u001b[32m    123\u001b[39m \u001b[38;5;129m@wraps\u001b[39m(function)\n\u001b[32m    124\u001b[39m \u001b[38;5;28;01mdef\u001b[39;00m\u001b[38;5;250m \u001b[39m\u001b[34mwrapper\u001b[39m(*args: P.args, **kwargs: P.kwargs) -> T:\n\u001b[32m    125\u001b[39m     _rename_keyword_argument(\n\u001b[32m    126\u001b[39m         old_name, new_name, kwargs, function.\u001b[34m__qualname__\u001b[39m, version\n\u001b[32m    127\u001b[39m     )\n\u001b[32m--> \u001b[39m\u001b[32m128\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunction\u001b[49m\u001b[43m(\u001b[49m\u001b[43m*\u001b[49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43m*\u001b[49m\u001b[43m*\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32me:\\CVUT_BAP\\.venv\\Lib\\site-packages\\polars\\io\\parquet\\functions.py:289\u001b[39m, in \u001b[36mread_parquet\u001b[39m\u001b[34m(source, columns, n_rows, row_index_name, row_index_offset, parallel, use_statistics, hive_partitioning, glob, schema, hive_schema, try_parse_hive_dates, rechunk, low_memory, storage_options, credential_provider, retries, use_pyarrow, pyarrow_options, memory_map, include_file_paths, missing_columns, allow_missing_columns)\u001b[39m\n\u001b[32m    286\u001b[39m     \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[32m    287\u001b[39m         lf = lf.select(columns)\n\u001b[32m--> \u001b[39m\u001b[32m289\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mlf\u001b[49m\u001b[43m.\u001b[49m\u001b[43mcollect\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32me:\\CVUT_BAP\\.venv\\Lib\\site-packages\\polars\\_utils\\deprecation.py:97\u001b[39m, in \u001b[36mdeprecate_streaming_parameter.<locals>.decorate.<locals>.wrapper\u001b[39m\u001b[34m(*args, **kwargs)\u001b[39m\n\u001b[32m     93\u001b[39m         kwargs[\u001b[33m\"\u001b[39m\u001b[33mengine\u001b[39m\u001b[33m\"\u001b[39m] = \u001b[33m\"\u001b[39m\u001b[33min-memory\u001b[39m\u001b[33m\"\u001b[39m\n\u001b[32m     95\u001b[39m     \u001b[38;5;28;01mdel\u001b[39;00m kwargs[\u001b[33m\"\u001b[39m\u001b[33mstreaming\u001b[39m\u001b[33m\"\u001b[39m]\n\u001b[32m---> \u001b[39m\u001b[32m97\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunction\u001b[49m\u001b[43m(\u001b[49m\u001b[43m*\u001b[49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43m*\u001b[49m\u001b[43m*\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32me:\\CVUT_BAP\\.venv\\Lib\\site-packages\\polars\\lazyframe\\opt_flags.py:328\u001b[39m, in \u001b[36mforward_old_opt_flags.<locals>.decorate.<locals>.wrapper\u001b[39m\u001b[34m(*args, **kwargs)\u001b[39m\n\u001b[32m    325\u001b[39m         optflags = cb(optflags, kwargs.pop(key))  \u001b[38;5;66;03m# type: ignore[no-untyped-call,unused-ignore]\u001b[39;00m\n\u001b[32m    327\u001b[39m kwargs[\u001b[33m\"\u001b[39m\u001b[33moptimizations\u001b[39m\u001b[33m\"\u001b[39m] = optflags\n\u001b[32m--> \u001b[39m\u001b[32m328\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfunction\u001b[49m\u001b[43m(\u001b[49m\u001b[43m*\u001b[49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43m*\u001b[49m\u001b[43m*\u001b[49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32me:\\CVUT_BAP\\.venv\\Lib\\site-packages\\polars\\lazyframe\\frame.py:2429\u001b[39m, in \u001b[36mLazyFrame.collect\u001b[39m\u001b[34m(self, type_coercion, predicate_pushdown, projection_pushdown, simplify_expression, slice_pushdown, comm_subplan_elim, comm_subexpr_elim, cluster_with_columns, collapse_joins, no_optimization, engine, background, optimizations, **_kwargs)\u001b[39m\n\u001b[32m   2427\u001b[39m \u001b[38;5;66;03m# Only for testing purposes\u001b[39;00m\n\u001b[32m   2428\u001b[39m callback = _kwargs.get(\u001b[33m\"\u001b[39m\u001b[33mpost_opt_callback\u001b[39m\u001b[33m\"\u001b[39m, callback)\n\u001b[32m-> \u001b[39m\u001b[32m2429\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m wrap_df(\u001b[43mldf\u001b[49m\u001b[43m.\u001b[49m\u001b[43mcollect\u001b[49m\u001b[43m(\u001b[49m\u001b[43mengine\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mcallback\u001b[49m\u001b[43m)\u001b[49m)\n",
+      "\u001b[31mFileNotFoundError\u001b[39m: The system cannot find the path specified. (os error 3): kod/data/data_z_mericich_pristroju/parquet/nafta_osobni"
+     ]
+    }
+   ],
+   "source": [
+    "df_mereni = cast_mereni(pl.read_parquet('kod/data/data_z_mericich_pristroju/parquet/nafta_osobni', schema=nafta_schema)).sample(fraction=1.0, shuffle=True, seed=SEED)\n",
+    "describe(df_mereni)"
+   ]
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": ".venv",
+   "display_name": ".venv (3.13.7)",
    "language": "python",
    "name": "python3"
   },
diff --git a/kod/preprocess.py b/kod/preprocess.py
@@ -2,7 +2,6 @@
 import gzip
 import shutil
 from functools import partial
-from statistics import mean
 
 import pandas as pd
 import pyarrow as pa
@@ -490,15 +489,15 @@ def fill_result_list(vyusteni_element_list, result_lists, required_list, categor
 
 
 # Vybere z každého vyústění hodnotu, která je považována za nejhorší
-def select_worst(result_lists, strategy_dict):
+def select_worst(result_lists, strategy_dict, already_parsed):
     result = {}
     for name, result_list in result_lists.items():
         try:
             if not result_list:
                 result[name] = None
                 continue
             if 'Min' in name or 'Max' in name or 'Vysledek' in name:
-                result[name] = next((result for result in result_list if result is not None), None)
+                result[name] = next((val for val in result_list if val is not None), None)
                 continue
             strategy = strategy_dict[name.split('_')[-2]]
             floats = floats_sublist(result_list)
@@ -508,20 +507,25 @@ def select_worst(result_lists, strategy_dict):
                     float_result = max(floats, default=None)
                 case 'min':
                     float_result = min(floats, default=None)
-                case 'mean':
-                    float_result = mean(floats) # Vyvolá výjimku v případě prázdného seznamu
                 case 'max_diff_1':
                     float_result = max(floats, default=None, key=lambda x: abs(x - 1.0))
                 case 'bounds':
-                    name_stem = name.partition("_Hodnota")[0]
                     try:
-                        min_value = float(result[f'{name_stem}_Min_Hodnota'])
-                        max_value = float(result[f'{name_stem}_Max_Hodnota'])
+                        if name.startswith('Nafta'):
+                            # Pro naftu jsou limity v samostatném bloku MereniVznetLimit
+                            param = name.split('_')[-2]
+                            min_value = float(already_parsed[f'Nafta_MereniVznetLimit_{param}_Min_Hodnota'])
+                            max_value = float(already_parsed[f'Nafta_MereniVznetLimit_{param}_Max_Hodnota'])
+                        else:
+                            # Pro benzín/plyn jsou limity součástí aktuálního záznamu
+                            name_stem = name.partition("_Hodnota")[0]
+                            min_value = float(result[f'{name_stem}_Min_Hodnota'])
+                            max_value = float(result[f'{name_stem}_Max_Hodnota'])
+                        
                         optimal_value = (max_value + min_value) / 2
                         float_result = max(floats, default=None, key=lambda x: abs(x - optimal_value))
-                    # Pokud by některá z krajních hodnot chyběla vezmu první záznam o otáčkách
                     except Exception:
-                        float_result = next((float for float in floats if float is not None), None)
+                        float_result = next((f for f in floats if f is not None), None)
             # Cast na string, aby bylo zachováno načtení všech hodnot jako string
             if float_result is not None:
                 result[name] = str(float_result)
@@ -543,8 +547,8 @@ def get_detail_benzin(element, prefix, namespaces):
     categories = {'OtackyVolnobezne': ('otackyVolnobezne', 1), 'OtackyZvysene': ('otackyZvysene', 1)}
     result_lists = initialize_result_list(required_list, categories, prefix)
     fill_result_list(benzin_vyusteni_element_list, result_lists, required_list, categories, prefix, namespaces)
-    strategy_dict = {'CO': 'max', 'CO2': 'min', 'COCOOR': 'max', 'HC': 'max', 'LAMBDA': 'max_diff_1', 'N': 'bounds', 'NOX': 'max', 'O2': 'max', 'TPS': 'max'}
-    result |= select_worst(result_lists, strategy_dict)
+    strategy_dict = {'CO': 'max', 'CO2': 'min', 'COCOOR': 'max', 'HC': 'max', 'LAMBDA': 'max_diff_1', 'N': 'bounds', 'NOX': 'max', 'O2': 'max', 'TPS': 'min'}
+    result |= select_worst(result_lists, strategy_dict, result)
     return result
 
 
@@ -575,8 +579,8 @@ def get_detail_nafta(element, prefix, namespaces):
     categories = {'MereniPrumer': ('mereniPrumer', 1), 'Mereni': ('mereni', 4)}
     result_lists = initialize_result_list(required_list, categories, prefix)
     fill_result_list(nafta_vyusteni_element_list, result_lists, required_list, categories, prefix, namespaces)
-    strategy_dict = {'TPS': 'mean', 'CasAkcelerace': 'max', 'Kourivost': 'max', 'OtackyPrebehove': 'mean', 'OtackyVolnobezne': 'mean', 'Teplota': 'min'}
-    result |= select_worst(result_lists, strategy_dict)
+    strategy_dict = {'TPS': 'min', 'CasAkcelerace': 'max', 'Kourivost': 'max', 'OtackyPrebehove': 'bounds', 'OtackyVolnobezne': 'bounds', 'Teplota': 'min'}
+    result |= select_worst(result_lists, strategy_dict, result)
     return result
     
 
@@ -980,6 +984,13 @@ def parse_stations_file(target_dir, xml_file, verbosity, delete):
 def run_preprocessing():
     explain_verbosity(config.VERBOSITY)
 
+    print('—————————————————————————————————Stanice STK a SME:—————————————————————————————————————————————\n')
+    # Seznam stanic prochází denní aktualizací
+    clear_folder(config.STATIONS_DIR, config.VERBOSITY)
+    download_stations(config.SPARQL_ENDPOINT, config.STATIONS_DIR / 'gz', config.DATASET_STATIONS, config.VERBOSITY)
+    extract_files(config.STATIONS_DIR / 'gz', config.STATIONS_DIR / 'xml', 1, config.VERBOSITY)
+    parse_series_to_parquet(config.STATIONS_DIR / 'xml', config.STATIONS_DIR / 'parquet', parse_stations_file, 1, config.VERBOSITY, False)
+
     print('——————————————————————————————————PROHLÍDKY VOZIDEL STK A SME:——————————————————————————————————\n')
     downloaded_inspection_dates = downloaded_dates([config.INSPECTIONS_DIR / 'gz', config.INSPECTIONS_DIR / 'xml', config.INSPECTIONS_DIR / 'parquet'])
     download_files(config.SPARQL_ENDPOINT, config.INSPECTIONS_DIR / 'gz', config.PARENT_DATASET_INSPECTIONS, config.START_DATE, config.END_DATE, downloaded_inspection_dates, config.NO_DOWNLOAD_THREADS, config.MAX_DOWNLOAD_ATTEMPTS, config.VERBOSITY)
@@ -992,12 +1003,6 @@ def run_preprocessing():
     extract_files(config.MEASUREMENTS_DIR / 'gz', config.MEASUREMENTS_DIR / 'xml', config.NO_EXTRACT_THREADS, config.VERBOSITY)
     parse_series_to_parquet(config.MEASUREMENTS_DIR / 'xml', config.MEASUREMENTS_DIR / 'parquet', parse_measurements_file, config.NO_PARSE_PROCESSES, config.VERBOSITY, False)
     
-    print('—————————————————————————————————Stanice STK a SME:—————————————————————————————————————————————\n')
-    # Seznam stanic prochází denní aktualizací
-    clear_folder(config.STATIONS_DIR, config.VERBOSITY)
-    download_stations(config.SPARQL_ENDPOINT, config.STATIONS_DIR / 'gz', config.DATASET_STATIONS, config.VERBOSITY)
-    extract_files(config.STATIONS_DIR / 'gz', config.STATIONS_DIR / 'xml', 1, config.VERBOSITY)
-    parse_series_to_parquet(config.STATIONS_DIR / 'xml', config.STATIONS_DIR / 'parquet', parse_stations_file, 1, config.VERBOSITY, False)
 
 
 if __name__ == '__main__':
diff --git a/kod/stations_exploration.ipynb b/kod/stations_exploration.ipynb