Нормаластыру артық деректерді жою үшін пайдаланылады және кластерлеу алгоритмдерінің тиімділігін арттыратын сапалы кластерлердің жасалуын қамтамасыз етеді. Сондықтан бұл евклидтік қашықтық ретінде кластерлеуден бұрын маңызды қадам болады. айырмашылықтардағы өзгерістерге өте сезімтал[3].
K-means кластері үшін деректерді қалыпқа келтіру керек пе?
k-NN әдісіндегідей, кластерлеу үшін қолданылатын сипаттамалар салыстырмалы бірліктермен өлшенуі керек. Бұл жағдайда бірліктер мәселе емес, өйткені барлық 6 сипаттама 5 баллдық шкалада көрсетілген. Қалыптастыру немесе стандарттау қажет емес.
Кластерлеу алдында деректерді қалай дайындайсыз?
Деректерді дайындау
R ішінде кластерлік талдауды орындау үшін, әдетте, деректер келесідей дайындалуы керек: Жолдар бақылаулар (жеке тұлғалар) және бағандар айнымалылар болып табылады. Деректердегі кез келген жетіспейтін мән жойылуы немесе бағалануы керек. Айнымалы мәндерді салыстырмалы ету үшін деректер стандартталған (яғни масштабталған) болуы керек.
Деректерді кластерлеу үшін масштабтау керек пе?
Кластерлеуде екі мысал арасындағы ұқсастықты сол мысалдар үшін барлық мүмкіндік деректерін сандық мәнге біріктіру арқылы есептейсіз. Мүмкіндік деректерін біріктіру деректердің бірдей масштабта болуын талап етеді.
Кластерлеу алдында мүмкіндіктерді қалыпқа келтіру неліктен маңызды?
Стандарттау деректердің маңызды қадамы болып табыладыалдын ала өңдеу.
Осы мақалада түсіндірілгендей, k-мағынасы Ньютон алгоритмін, яғни градиент негізіндегі оңтайландыру алгоритмін пайдаланып қате функциясын азайтады. Деректерді қалыпқа келтіру мұндай алгоритмдердің конвергенциясын жақсартады.