Merge branch 'feat/90-feat-preserve-trained-model' into dev

2025-06-12 03:38:15 +07:00
parent 7613c08ebd 4b0819f94e
commit e7332252a6
3 changed files with 135 additions and 23 deletions
--- a/.vscode/settings.json
+++ b/.vscode/settings.json
@@ -1,4 +1,7 @@
 {
-  "python.analysis.extraPaths": ["./code/src/features"],
+  "python.analysis.extraPaths": [
    "./code/src/features",
    "${workspaceFolder}/code/src"
  ],
  "jupyter.notebookFileRoot": "${workspaceFolder}/code"
 }
--- a/code/notebooks/stft.ipynb
+++ b/code/notebooks/stft.ipynb
@@ -688,23 +688,8 @@
   "metadata": {},
   "outputs": [],
   "source": [
-    "def train_and_evaluate_model(model, model_name, sensor_label, x_train, y_train, x_test, y_test):\n",
+    "from src.ml.model_selection import train_and_evaluate_model\n",
-    "    model.fit(x_train, y_train)\n",
+    "from sklearn.svm import SVC\n",
    "    y_pred = model.predict(x_test)\n",
    "    accuracy = accuracy_score(y_test, y_pred) * 100\n",
    "    return {\n",
    "        \"model\": model_name,\n",
    "        \"sensor\": sensor_label,\n",
    "        \"accuracy\": accuracy\n",
    "    }"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Define models for sensor1\n",
    "models_sensor1 = {\n",
    "    # \"Random Forest\": RandomForestClassifier(),\n",
@@ -718,7 +703,7 @@
    "\n",
    "results_sensor1 = []\n",
    "for name, model in models_sensor1.items():\n",
-    "    res = train_and_evaluate_model(model, name, \"sensor1\", x_train1, y_train, x_test1, y_test)\n",
+    "    res = train_and_evaluate_model(model, name, \"sensor1\", x_train1, y_train, x_test1, y_test, export='D:/thesis/models/sensor1')\n",
    "    results_sensor1.append(res)\n",
    "    print(f\"{name} on sensor1: Accuracy = {res['accuracy']:.2f}%\")\n"
   ]
@@ -741,7 +726,7 @@
    "\n",
    "results_sensor2 = []\n",
    "for name, model in models_sensor2.items():\n",
-    "    res = train_and_evaluate_model(model, name, \"sensor2\", x_train2, y_train, x_test2, y_test)\n",
+    "    res = train_and_evaluate_model(model, name, \"sensor2\", x_train2, y_train, x_test2, y_test, export='D:/thesis/models/sensor2')\n",
    "    results_sensor2.append(res)\n",
    "    print(f\"{name} on sensor2: Accuracy = {res['accuracy']:.2f}%\")\n"
   ]
@@ -854,6 +839,8 @@
   "source": [
    "from sklearn.metrics import accuracy_score, classification_report\n",
    "# 4. Validate on Dataset B\n",
    "from joblib import load\n",
    "svm_model = load('D:/thesis/models/sensor1/SVM.joblib')\n",
    "y_pred_svm = svm_model.predict(X1b)\n",
    "\n",
    "# 5. Evaluate\n",
@@ -861,6 +848,30 @@
    "print(classification_report(y, y_pred_svm))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Model sensor 1 to predict sensor 2 data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "from sklearn.metrics import accuracy_score, classification_report\n",
    "# 4. Validate on Dataset B\n",
    "from joblib import load\n",
    "svm_model = load('D:/thesis/models/sensor1/SVM.joblib')\n",
    "y_pred_svm = svm_model.predict(X2b)\n",
    "\n",
    "# 5. Evaluate\n",
    "print(\"Accuracy on Dataset B:\", accuracy_score(y, y_pred_svm))\n",
    "print(classification_report(y, y_pred_svm))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
@@ -920,7 +931,7 @@
    "# Plot\n",
    "disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)\n",
    "disp.plot(cmap=plt.cm.Blues)  # You can change colormap\n",
-    "plt.title(\"SVM Sensor1 CM Train w/ Dataset A Val w/ Dataset B\")\n",
+    "plt.title(\"SVM Sensor1 CM Train w/ Dataset A Val w/ Dataset B from Sensor2 readings\")\n",
    "plt.show()"
   ]
  },
@@ -938,14 +949,14 @@
   "outputs": [],
   "source": [
    "# 1. Predict sensor 1 on Dataset A\n",
-    "y_train_pred = svm_model.predict(x_train1)\n",
+    "y_test_pred = svm_model.predict(x_test1)\n",
    "\n",
    "# 2. Import confusion matrix tools\n",
    "from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay\n",
    "import matplotlib.pyplot as plt\n",
    "\n",
    "# 3. Create and plot confusion matrix\n",
-    "cm_train = confusion_matrix(y_train, y_train_pred)\n",
+    "cm_train = confusion_matrix(y_test, y_test_pred)\n",
    "labels = svm_model.classes_\n",
    "\n",
    "disp = ConfusionMatrixDisplay(confusion_matrix=cm_train, display_labels=labels)\n",
--- a/code/src/ml/model_selection.py
+++ b/code/src/ml/model_selection.py
@@ -55,3 +55,101 @@ def create_ready_data(
        y = np.array([])
    return X, y
 def train_and_evaluate_model(
    model, model_name, sensor_label, x_train, y_train, x_test, y_test, export=None
 ):
    """
    Train a machine learning model, evaluate its performance, and optionally export it.
    This function trains the provided model on the training data, evaluates its
    performance on test data using accuracy score, and can save the trained model
    to disk if an export path is provided.
    Parameters
    ----------
    model : estimator object
        The machine learning model to train.
    model_name : str
        Name of the model, used for the export filename and in the returned results.
    sensor_label : str
        Label identifying which sensor's data the model is being trained on.
    x_train : array-like or pandas.DataFrame
        The training input samples.
    y_train : array-like
        The target values for training.
    x_test : array-like or pandas.DataFrame
        The test input samples.
    y_test : array-like
        The target values for testing.
    export : str, optional
        Directory path where the trained model should be saved. If None, model won't be saved.
    Returns
    -------
    dict
        Dictionary containing:
        - 'model': model_name (str)
        - 'sensor': sensor_label (str)
        - 'accuracy': accuracy percentage (float)
    Example
    -------
    >>> from sklearn.svm import SVC
    >>> from sklearn.model_selection import train_test_split
    >>> X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2)
    >>> result = train_and_evaluate_model(
    ...     SVC(),
    ...     "SVM",
    ...     "sensor1",
    ...     X_train,
    ...     y_train,
    ...     X_test,
    ...     y_test,
    ...     export="models/sensor1"
    ... )
    >>> print(f"Model accuracy: {result['accuracy']:.2f}%")
    """
    from sklearn.metrics import accuracy_score
    result = {"model": model_name, "sensor": sensor_label, "success": False}
    try:
        # Train the model
        model.fit(x_train, y_train)
        try:
            y_pred = model.predict(x_test)
        except Exception as e:
            result["error"] = f"Prediction error: {str(e)}"
            return result
        # Calculate accuracy
        try:
            accuracy = accuracy_score(y_test, y_pred) * 100
            result["accuracy"] = accuracy
        except Exception as e:
            result["error"] = f"Accuracy calculation error: {str(e)}"
            return result
        # Export model if requested
        if export:
            try:
                import joblib
                full_path = os.path.join(export, f"{model_name}.joblib")
                os.makedirs(os.path.dirname(full_path), exist_ok=True)
                joblib.dump(model, full_path)
                print(f"Model saved to {full_path}")
            except Exception as e:
                print(f"Warning: Failed to export model to {export}: {str(e)}")
                result["export_error"] = str(e)
                # Continue despite export error
        result["success"] = True
        return result
    except Exception as e:
        result["error"] = f"Training error: {str(e)}"
        return result