feat: major add content to introductions and literature review

2025-10-13 04:27:36 +00:00
parent 0017d686b6
commit 3d9223a565
12 changed files with 403 additions and 79 deletions
--- a/latex/chapters/id/02_literature_review/theoritical_foundation/machine_learning.tex
+++ b/latex/chapters/id/02_literature_review/theoritical_foundation/machine_learning.tex
@@ -1,45 +1,133 @@
-\subsection{Algoritma Klasifikasi}
+% \subsection{Algoritma Klasifikasi}

-Penelitian ini mengevaluasi lima algoritma pemelajaran mesin klasik untuk melakukan tugas pengklasifikasian terhadap lokalisasi kerusakan. Setiap algoritma memiliki keunggulan dan limitasi masing-masing, dan performa untuk setiap algoritma dijadikan tolok ukur untuk mengidentifikasi manakah algoritma yang paling sesuai untuk setiap \textit{dataset} yang diberikan.
+% Penelitian ini mengevaluasi lima algoritma pemelajaran mesin klasik untuk melakukan tugas pengklasifikasian terhadap lokalisasi kerusakan. Setiap algoritma memiliki keunggulan dan limitasi masing-masing, dan performa untuk setiap algoritma dijadikan tolok ukur untuk mengidentifikasi manakah algoritma yang paling sesuai untuk setiap \textit{dataset} yang diberikan.

-\subsubsection{Support Vector Machine (SVM)}
+\subsection{Support Vector Machine (SVM)}

-Mesin vektor pendukung (SVM) adalah sebuah algoritma pemelajaran mesin terarah yang mencari \textit{hyperplane} optimal dengan cara memisahkan data ke dalam kelas-kelas dengan margin maksimum. SVM bekerja dengan baik pada ruang dimensi tinggi dan cukup kokoh terhadap \textit{overfitting}, terutama pada kasus yang membutuhkan batasan margin secara jelas \parencite{cortes1995}.
+\subsubsection{Formulasi Matematis SVM}

-SVM sesuai untuk klasifikasi sinyal getaran karena kemampuannya untuk mengatasi keputusan batasan-batasan non-linier apabila dilengkapi dengan fungsi kernel, seperti fungsi kernel berbasis radial (RBF).
+Mesin vektor pendukung (SVM) adalah algoritma pemelajaran mesin terarah yang bertujuan menemukan \textit{hyperplane} optimal untuk memisahkan data ke dalam kelas-kelas yang berbeda. Untuk dataset yang dapat dipisahkan secara linear, SVM mencari \textit{hyperplane} yang memaksimalkan margin antara kelas-kelas tersebut.

-\subsubsection{K-Nearest Neighbors (KNN)}
+Diberikan dataset pelatihan $\{(\mathbf{x}_i, y_i)\}_{i=1}^{n}$ dimana $\mathbf{x}_i \in \mathbb{R}^d$ adalah vektor fitur dan $y_i \in \{-1, +1\}$ adalah label kelas, masalah optimasi SVM dapat diformulasikan sebagai:

-KNN merupakan sebuah algoritma pemelajaran non-parametrik, berbasis contoh. Algoritma ini mengklasifikasi titik data yang berbasis pada pungutan suara terbanyak dari tetangga terdekat $k$ pada ruang fitur. Meskipun dinilai sederhana, KNN dapat dinilai efektif ketika datanya terdistribusi dengan baik dan batasan-batasan pada kelasnya merata.
+\begin{align}
+\min_{\mathbf{w}, b} &\quad \frac{1}{2} \|\mathbf{w}\|^2 \\
+\text{subject to} &\quad y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1, \quad i = 1, 2, \ldots, n
+\end{align}

-Performa algoritma ini sensitif pada pemilihan $k$ dan jarak metriknya. Untuk data dengan dimensi tinggi seperti fitur STFT, mungkin diperlukan optimalisasi atau penskalaan dimensi.
+dimana $\mathbf{w}$ adalah vektor bobot dan $b$ adalah bias. Untuk data yang tidak dapat dipisahkan secara linear sempurna, digunakan \textit{soft margin} dengan menambahkan variabel slack $\xi_i$:

-\subsubsection{Decision Tree (DT)}
+\begin{align}
+\min_{\mathbf{w}, b, \xi} &\quad \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^{n} \xi_i \\
+\text{subject to} &\quad y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0
+\end{align}

-Decision Tree adalah algoritma pemelajaran terarah (\textit{supervised learning}) berbasis struktur pohon, di mana setiap \textit{node} internal mewakili suatu keputusan berdasarkan atribut tertentu, setiap cabang mewakili hasil dari keputusan tersebut, dan setiap daun (leaf node) mewakili label kelas. Algoritma ini secara rekursif membagi data ke dalam subset berdasarkan fitur yang memberikan informasi paling tinggi, seperti diukur dengan Gini index atau entropi (information gain).
+Parameter $C$ mengontrol trade-off antara maksimalisasi margin dan minimisasi kesalahan klasifikasi.

-Kelebihan dari Decision Tree adalah interpretabilitasnya yang tinggi dan kemampuannya menangani data numerik maupun kategorikal. Namun, pohon keputusan rentan terhadap \textit{overfitting}, terutama jika kedalaman pohon tidak dikontrol.
+\subsubsection{Kernel RBF (Radial Basis Function)}

-\subsubsection{Random Forest (RF)}
+Untuk menangani data non-linear, SVM menggunakan \textit{kernel trick} yang memetakan data ke ruang berdimensi lebih tinggi tanpa komputasi eksplisit. Kernel RBF yang digunakan dalam penelitian ini didefinisikan sebagai:

-Random Forest adalah metode ensemble yang terdiri dari banyak Decision Tree yang dilatih pada subset data dan subset fitur yang diacak. Setiap pohon dalam hutan memberikan prediksi, dan hasil akhir ditentukan melalui agregasi (misalnya, voting mayoritas untuk klasifikasi).
+\begin{equation}
+K(\mathbf{x}_i, \mathbf{x}_j) = \exp\left(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2\right)
+\end{equation}

-Dengan menggabungkan banyak pohon, Random Forest mengurangi varian model dan meningkatkan generalisasi. Teknik ini efektif untuk dataset yang kompleks dan sangat cocok untuk menghindari \textit{overfitting} yang umum terjadi pada satu pohon keputusan tunggal.
+dimana $\gamma > 0$ adalah parameter yang mengontrol \textit{bandwidth} kernel. Parameter ini memengaruhi kompleksitas model: nilai $\gamma$ yang kecil menghasilkan batas keputusan yang halus (model sederhana), sementara nilai besar menghasilkan batas yang lebih kompleks namun rentan terhadap \textit{overfitting}.

-\subsubsection{Bagged Trees (BT)}
+Fungsi keputusan SVM dengan kernel RBF menjadi:
+\begin{equation}
+f(\mathbf{x}) = \text{sign}\left(\sum_{i=1}^{n} \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b\right)
+\end{equation}

-\textit{Bagged Trees} atau \textit{Bootstrap Aggregated Trees} adalah pendekatan \textit{ensemble} yang mirip dengan Random Forest, namun perbedaannya terletak pada pemilihan fitur. Dalam \textit{Bagged Trees}, pohon-pohon dibangun dari sampel acak \textit{bootstrap} dari dataset pelatihan, tetapi tanpa pengacakan subset fitur seperti pada Random Forest.
+dimana $\alpha_i$ adalah pengali Lagrange yang diperoleh dari optimasi dual.

-\subsubsection{XGBoost (Extreme Gradient Boosting)}
+\subsubsection{Optimasi Hyperparameter}

-XGBoost adalah algoritma pemelajaran mesin berbasis \textit{gradient boosting} yang dirancang untuk efisiensi dan performa tinggi. Algoritma ini bekerja dengan membangun model secara bertahap, di mana setiap pohon selanjutnya mencoba memperbaiki kesalahan dari pohon sebelumnya dengan mengoptimasi fungsi kerugian (\textit{loss function}) menggunakan metode gradien.
+Performa SVM sangat bergantung pada pemilihan parameter $C$ dan $\gamma$ yang optimal. Penelitian ini menggunakan strategi pencarian grid dua tahap:

-XGBoost menggabungkan beberapa teknik seperti regularisasi $L1$ dan $L2$, pemangkasan pohon (\textit{pruning}), dan pemrosesan paralel, sehingga menghindari terjadinya \textit{overfitting} dan unggul dalam akurasi prediksi dibanding metode pohon lainnya. Algoritma ini sangat populer dalam kompetisi data karena kemampuannya menangani data besar, fitur multivariat, dan klasifikasi multi-kelas secara efisien.
+\begin{enumerate}
+    \item \textbf{Coarse Grid Search}: Pencarian kasar pada rentang parameter yang luas dengan langkah eksponensial untuk mengidentifikasi region optimal.
+    \item \textbf{Fine Grid Search}: Pencarian halus di sekitar region optimal yang ditemukan pada tahap pertama dengan resolusi yang lebih tinggi.
+\end{enumerate}

-\subsubsection{Linear Discriminant Analysis (LDA)}
+Validasi silang stratified k-fold digunakan untuk mengevaluasi setiap kombinasi parameter dan menghindari \textit{overfitting} pada data pelatihan.

-Linear Discriminant Analysis (LDA) adalah teknik klasifikasi dan reduksi dimensi yang mengasumsikan bahwa data berasal dari distribusi normal multivariat dan memiliki kovarians yang seragam untuk setiap kelas. LDA bertujuan untuk memproyeksikan data ke ruang berdimensi lebih rendah yang memaksimalkan pemisahan antar kelas (rasio varians antar kelas terhadap varians dalam kelas).
+\subsection{Principal Component Analysis (PCA)}

-LDA sangat cocok ketika distribusi data mendekati normal dan jumlah fitur tidak terlalu besar dibanding jumlah sampel. Selain sebagai klasifikator, LDA juga sering digunakan sebagai teknik prapemrosesan untuk ekstraksi fitur sebelum digunakan dalam algoritma lain.
+\subsubsection{Formulasi Matematis PCA}

-\bigskip
+PCA adalah teknik reduksi dimensi yang mentransformasi data ke ruang berdimensi lebih rendah sambil mempertahankan varians maksimal. Diberikan matriks data $\mathbf{X} \in \mathbb{R}^{n \times d}$ dengan $n$ sampel dan $d$ fitur, PCA mencari proyeksi linear $\mathbf{Y} = \mathbf{X}\mathbf{W}$ dimana $\mathbf{W} \in \mathbb{R}^{d \times k}$ adalah matriks transformasi dan $k < d$ adalah dimensi target.
+
+Langkah-langkah PCA:
+\begin{enumerate}
+    \item Sentralisasi data: $\mathbf{X}_{centered} = \mathbf{X} - \boldsymbol{\mu}$
+    \item Hitung matriks kovarians: $\mathbf{C} = \frac{1}{n-1}\mathbf{X}_{centered}^T\mathbf{X}_{centered}$
+    \item Dekomposisi eigen: $\mathbf{C} = \mathbf{V}\mathbf{\Lambda}\mathbf{V}^T$
+    \item Pilih $k$ eigenvector dengan eigenvalue terbesar sebagai komponen utama
+\end{enumerate}
+
+\subsubsection{Kriteria Pemilihan Komponen}
+
+Jumlah komponen PCA optimal dipilih berdasarkan:
+\begin{itemize}
+    \item \textbf{Explained Variance Ratio}: Mempertahankan minimal 95\% varians total
+    \item \textbf{Elbow Method}: Mengidentifikasi titik diminishing returns dalam explained variance
+    \item \textbf{Cross-validation Performance}: Evaluasi performa klasifikasi pada berbagai jumlah komponen
+\end{itemize}
+
+\subsection{Metrik Evaluasi}
+
+\subsubsection{Metrik Klasifikasi}
+
+Evaluasi performa model menggunakan metrik standar:
+\begin{itemize}
+    \item \textbf{Akurasi}: $\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$
+    \item \textbf{Precision}: $\text{Precision} = \frac{TP}{TP + FP}$  
+    \item \textbf{Recall}: $\text{Recall} = \frac{TP}{TP + FN}$
+    \item \textbf{F1-Score}: $\text{F1} = 2 \cdot \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
+\end{itemize}
+
+\subsubsection{Metrik Efisiensi}
+
+Penelitian ini memperkenalkan metrik efisiensi yang mempertimbangkan trade-off antara akurasi dan waktu komputasi:
+\begin{equation}
+\text{Efficiency Score} = \frac{\text{Accuracy}^2}{\text{Training Time (normalized)}}
+\end{equation}
+
+Metrik ini memberikan skor tinggi untuk model yang mencapai akurasi tinggi dengan waktu pelatihan minimal.
+
+% \subsubsection{K-Nearest Neighbors (KNN)}
+
+% KNN merupakan sebuah algoritma pemelajaran non-parametrik, berbasis contoh. Algoritma ini mengklasifikasi titik data yang berbasis pada pungutan suara terbanyak dari tetangga terdekat $k$ pada ruang fitur. Meskipun dinilai sederhana, KNN dapat dinilai efektif ketika datanya terdistribusi dengan baik dan batasan-batasan pada kelasnya merata.
+
+% Performa algoritma ini sensitif pada pemilihan $k$ dan jarak metriknya. Untuk data dengan dimensi tinggi seperti fitur STFT, mungkin diperlukan optimalisasi atau penskalaan dimensi.
+
+% \subsubsection{Decision Tree (DT)}
+
+% Decision Tree adalah algoritma pemelajaran terarah (\textit{supervised learning}) berbasis struktur pohon, di mana setiap \textit{node} internal mewakili suatu keputusan berdasarkan atribut tertentu, setiap cabang mewakili hasil dari keputusan tersebut, dan setiap daun (leaf node) mewakili label kelas. Algoritma ini secara rekursif membagi data ke dalam subset berdasarkan fitur yang memberikan informasi paling tinggi, seperti diukur dengan Gini index atau entropi (information gain).
+
+% Kelebihan dari Decision Tree adalah interpretabilitasnya yang tinggi dan kemampuannya menangani data numerik maupun kategorikal. Namun, pohon keputusan rentan terhadap \textit{overfitting}, terutama jika kedalaman pohon tidak dikontrol.
+
+% \subsubsection{Random Forest (RF)}
+
+% Random Forest adalah metode ensemble yang terdiri dari banyak Decision Tree yang dilatih pada subset data dan subset fitur yang diacak. Setiap pohon dalam hutan memberikan prediksi, dan hasil akhir ditentukan melalui agregasi (misalnya, voting mayoritas untuk klasifikasi).
+
+% Dengan menggabungkan banyak pohon, Random Forest mengurangi varian model dan meningkatkan generalisasi. Teknik ini efektif untuk dataset yang kompleks dan sangat cocok untuk menghindari \textit{overfitting} yang umum terjadi pada satu pohon keputusan tunggal.
+
+% \subsubsection{Bagged Trees (BT)}
+
+% \textit{Bagged Trees} atau \textit{Bootstrap Aggregated Trees} adalah pendekatan \textit{ensemble} yang mirip dengan Random Forest, namun perbedaannya terletak pada pemilihan fitur. Dalam \textit{Bagged Trees}, pohon-pohon dibangun dari sampel acak \textit{bootstrap} dari dataset pelatihan, tetapi tanpa pengacakan subset fitur seperti pada Random Forest.
+
+% \subsubsection{XGBoost (Extreme Gradient Boosting)}
+
+% XGBoost adalah algoritma pemelajaran mesin berbasis \textit{gradient boosting} yang dirancang untuk efisiensi dan performa tinggi. Algoritma ini bekerja dengan membangun model secara bertahap, di mana setiap pohon selanjutnya mencoba memperbaiki kesalahan dari pohon sebelumnya dengan mengoptimasi fungsi kerugian (\textit{loss function}) menggunakan metode gradien.
+
+% XGBoost menggabungkan beberapa teknik seperti regularisasi $L1$ dan $L2$, pemangkasan pohon (\textit{pruning}), dan pemrosesan paralel, sehingga menghindari terjadinya \textit{overfitting} dan unggul dalam akurasi prediksi dibanding metode pohon lainnya. Algoritma ini sangat populer dalam kompetisi data karena kemampuannya menangani data besar, fitur multivariat, dan klasifikasi multi-kelas secara efisien.
+
+% \subsubsection{Linear Discriminant Analysis (LDA)}
+
+% Linear Discriminant Analysis (LDA) adalah teknik klasifikasi dan reduksi dimensi yang mengasumsikan bahwa data berasal dari distribusi normal multivariat dan memiliki kovarians yang seragam untuk setiap kelas. LDA bertujuan untuk memproyeksikan data ke ruang berdimensi lebih rendah yang memaksimalkan pemisahan antar kelas (rasio varians antar kelas terhadap varians dalam kelas).
+
+% LDA sangat cocok ketika distribusi data mendekati normal dan jumlah fitur tidak terlalu besar dibanding jumlah sampel. Selain sebagai klasifikator, LDA juga sering digunakan sebagai teknik prapemrosesan untuk ekstraksi fitur sebelum digunakan dalam algoritma lain.
+
+% \bigskip
--- a/latex/chapters/id/02_literature_review/theoritical_foundation/stft.tex
+++ b/latex/chapters/id/02_literature_review/theoritical_foundation/stft.tex
@@ -1,13 +1,80 @@
 \subsection{Short-Time Fourier Transform (STFT)}

-Short-Time Fourier Transform (STFT) adalah teknik fundamental yang digunakan untuk menganalisis sinyal non-stasioner, seperti yang diperoleh dari struktur dalam keadaan menerima beban dinamik atau eksitasi derau putih. Meskipun tradisional transformasi fourier memberikan informasi domain frekuensi, teknik ini tidak memiliki resolusi waktu. STFT mengatasi limitasi tersebut dengan menerapkan transformasi fourier segment-segment sinyal pendek yang tumpang tindih, dengan demikian diperoleh representasi waktu-frekuensi.
+\subsubsection{Formulasi Matematis STFT}

-Secara matematis, STFT dari sinyal $x(t)$ diberikan sebagai berikut:
+Short-Time Fourier Transform (STFT) adalah teknik fundamental untuk menganalisis sinyal non-stasioner dengan menyediakan representasi waktu-frekuensi yang simultan. Berbeda dengan transformasi Fourier konvensional yang hanya memberikan informasi domain frekuensi global, STFT menerapkan transformasi Fourier pada segmen-segmen sinyal pendek yang bertumpang tindih.
+
+Secara matematis, STFT dari sinyal diskrit $x[n]$ didefinisikan sebagai:
 \begin{equation}
 X(m, \omega) = \sum_{n=-\infty}^{\infty} x[n] \cdot w[n - m] \cdot e^{-j \omega n}
 \end{equation}

+dimana:
+\begin{itemize}
+    \item $x[n]$ adalah sinyal input diskrit
+    \item $w[n]$ adalah fungsi windowing
+    \item $m$ adalah indeks waktu (hop)
+    \item $\omega$ adalah frekuensi angular diskrit
+    \item $X(m, \omega)$ adalah koefisien STFT kompleks
+\end{itemize}

-dengan $w(\tau - t)$ adalah sebuah fungsi \textit{windowing} berpusat pada waktu $t$ dan $\omega$ adalah frekuensi angular.
+\subsubsection{Parameter STFT dan Trade-off Resolusi}

-Pada studi ini, STFT digunakan untuk mengekstrak domain waktu-frekuensi dari sinyal getaran yang diperoleh dari dari respon struktur terhadap getaran yang diberikan oleh mesin \textit{shaker}. Fitur-fitur ini kemudian digunakan sebagai input pada klasifikasi pemelajaran mesin. Proces ini merekap frekuensi lokal setiap waktu, yang dinilai krusial pada pengidentifikasian perubahan struktur akibat kerusakan.
+Kualitas representasi waktu-frekuensi STFT ditentukan oleh pemilihan parameter window dan hop size:
+
+\begin{itemize}
+    \item \textbf{Window Size ($N$)}: Menentukan resolusi frekuensi. Window yang lebih panjang memberikan resolusi frekuensi yang lebih baik namun resolusi waktu yang lebih buruk.
+    \item \textbf{Hop Size ($H$)}: Jarak antar window yang berurutan. Hop size yang lebih kecil memberikan resolusi waktu yang lebih baik namun meningkatkan redundansi dan beban komputasi.
+    \item \textbf{Overlap}: Biasanya dipilih 50-75\% untuk mencegah kehilangan informasi di transisi antar window.
+\end{itemize}
+
+Prinsip ketidakpastian Heisenberg membatasi resolusi simultan waktu-frekuensi:
+\begin{equation}
+\Delta t \cdot \Delta f \geq \frac{1}{4\pi}
+\end{equation}
+
+dimana $\Delta t$ dan $\Delta f$ adalah ketidakpastian waktu dan frekuensi.
+
+\subsubsection{Spektrogram dan Ekstraksi Fitur}
+
+Spektrogram adalah representasi visual STFT yang menunjukkan distribusi energi sinyal dalam domain waktu-frekuensi:
+\begin{equation}
+S(m, \omega) = |X(m, \omega)|^2
+\end{equation}
+
+Untuk aplikasi pembelajaran mesin, spektrogram dapat digunakan langsung sebagai fitur 2D atau dikonversi menjadi vektor fitur 1D melalui:
+\begin{itemize}
+    \item \textbf{Flattening}: Mengubah matriks spektrogram menjadi vektor fitur
+    \item \textbf{Statistical Features}: Ekstraksi statistik seperti mean, variance, skewness, kurtosis per bin frekuensi
+    \item \textbf{Magnitude Spectrum}: Menggunakan hanya magnitudo tanpa informasi fase
+\end{itemize}
+
+\subsubsection{Keunggulan STFT untuk Deteksi Kerusakan}
+
+STFT sangat sesuai untuk deteksi kerusakan struktur karena:
+
+\begin{enumerate}
+    \item \textbf{Analisis Transien}: Mampu menangkap perubahan frekuensi lokal yang disebabkan oleh kerusakan
+    \item \textbf{Deteksi Harmonik}: Mengidentifikasi komponen harmonik baru yang muncul akibat kelonggaran baut
+    \item \textbf{Temporal Resolution}: Mempertahankan informasi waktu terjadinya perubahan spektral
+    \item \textbf{Robustness}: Relatif tahan terhadap noise dibanding analisis time-domain murni
+\end{enumerate}
+
+Dalam konteks kelonggaran baut, STFT dapat mendeteksi:
+\begin{itemize}
+    \item Pergeseran frekuensi natural akibat perubahan kekakuan sambungan
+    \item Munculnya frekuensi beat akibat coupling yang berubah
+    \item Modulasi amplitudo yang mengindikasikan kontak intermiten
+\end{itemize}
+
+\subsubsection{Implementasi STFT untuk Dataset QUGS}
+
+Dalam penelitian ini, parameter STFT dioptimalkan untuk karakteristik data QUGS:
+\begin{itemize}
+    \item \textbf{Window Function}: Hann window untuk meminimalkan spectral leakage
+    \item \textbf{Window Size}: 1024 sampel (≈1 detik pada 1024 Hz sampling rate)
+    \item \textbf{Hop Size}: 512 sampel (50\% overlap)
+    \item \textbf{Frequency Bins}: 513 bin frekuensi (0 - 512 Hz)
+\end{itemize}
+
+Konfigurasi ini menghasilkan spektrogram berukuran 513×513 yang kemudian di-flatten menjadi vektor fitur 263,169 dimensi untuk input ke algoritma pembelajaran mesin.