Hierarki vs Clustering Partisi

Clustering adalah teknik pembelajaran mesin untuk menganalisis data dan membahagikan kepada kumpulan data yang serupa. Kumpulan atau set kumpulan data yang serupa ini dikenali sebagai kluster. Analisis kluster melihat algoritma kluster yang dapat mengenal pasti kelompok secara automatik. Hierarki dan Partisi adalah dua kelas algoritma kluster. Algoritma kluster hierarki memecah data ke hierarki kluster. Algoritma pariti membahagikan data yang ditetapkan ke sekatan yang sama.

Apakah Clustering Hierarki?

Algoritma pengelompokan hierarki mengulangi kitaran sama ada penggabungan kelompok kecil ke yang lebih besar atau membahagikan klaster yang lebih besar kepada yang lebih kecil. Dengan cara ini, ia menghasilkan hierarki cluster yang disebut dendogram. Strategi clustering agglomerative menggunakan pendekatan bottom-up menggabungkan kelompok ke yang lebih besar, manakala strategi kluster membahagi menggunakan pendekatan atas ke bawah untuk memecah kepada yang lebih kecil. Biasanya, pendekatan tamak digunakan untuk menentukan kelompok yang lebih besar / kecil digunakan untuk penggabungan / pembahagian. Jarak Euclidean, jarak Manhattan dan persamaan kosinus adalah beberapa metrik kesamaan yang paling biasa digunakan untuk data angka. Untuk data bukan angka, metrik seperti jarak Hamming digunakan. Adalah penting untuk diperhatikan bahawa pemerhatian sebenar (contoh) tidak diperlukan untuk kluster hierarki, kerana hanya matriks jarak cukup. Dendogram adalah representasi visual kumpulan, yang memaparkan hierarki dengan sangat jelas. Pengguna boleh mendapatkan kluster yang berlainan bergantung pada tahap di mana dendogram dipotong.

Apakah Clustering Partisi?

Algoritma pengelompokkan parsial menghasilkan pelbagai partition dan kemudian menilai mereka dengan beberapa kriteria. Mereka juga dirujuk sebagai nonhierarkikal kerana setiap contoh diletakkan dalam satu kelompok k eksklusif yang eksklusif. Kerana hanya satu set kluster adalah output algoritma kluster parsial yang tipikal, pengguna dikehendaki memasukkan bilangan cluster yang dikehendaki (biasanya disebut k). Salah satu algoritma clustering yang paling biasa digunakan ialah algoritma clustering k-means. Pengguna dikehendaki menyediakan bilangan kluster (k) sebelum memulakan dan algoritma mula-mula memulakan pusat (atau centroids) dari partisyen k. Ringkasnya, algoritma k-bermakna clustering kemudian memberi ahli berdasarkan pusat-pusat semasa dan pusat-pusat penganggaran semula berdasarkan ahli-ahli semasa. Kedua-dua langkah ini diulang sehingga fungsi matlamat persamaan intra-kluster tertentu dan fungsi objektif ketidaksamaan antar kluster dioptimumkan. Oleh itu, inisiasi pusat yang masuk akal adalah faktor yang sangat penting untuk mendapatkan hasil yang berkualiti daripada algoritma kluster parsial.

Apakah perbezaan antara Clustering Hierarki dan Partisi?

Clustering hirarki dan Partisi mempunyai perbezaan utama dalam jangka masa, andaian, parameter input dan cluster yang dihasilkan. Kebiasaannya, clustering parsial adalah lebih cepat daripada clustering hierarki. Pengkelasan hirarkis memerlukan hanya ukuran keserupaan, sementara clustering partisi memerlukan andaian yang lebih kuat seperti bilangan kluster dan pusat permulaan. Kluster hierarki tidak memerlukan sebarang parameter input, sementara algoritma kluster parsial memerlukan bilangan kluster untuk mula berjalan. Kluster hierarki mengembalikan bahagian kluster yang lebih bermakna dan subjektif tetapi clustering partikel menghasilkan tepat pada cluster. Algoritma kluster hirarkikal lebih sesuai untuk data kategori selagi ukuran kesamaan dapat ditentukan dengan sewajarnya.