Algorytm PAM i dane kategoryczne

0

Witam,
mam pytanie dotyczące algorytmu PAM i danych kategorycznych. Posiadam zbiór, który posiada takie dane. Moje pytania są następujące:
Czy stosując algorytm PAM danych kategorycznych potrzebne jest wykonanie preprocesingu (np. zamiana danych na numeryczne) ?
Czy jako miary odległości można zastosować te miary: {‘euclidean’: 0, ‘squared euclidean’:1,‘manhattan’: 2,
‘chebyshev’: 3, ‘minkowski’: 4, ‘chi-square’:5,‘canberra’: 6,}?
Jakie są odpowiednie miary dla tego algorytmu?

1
P Pepe napisał(a):

Czy stosując algorytm PAM danych kategorycznych potrzebne jest wykonanie preprocesingu (np. zamiana danych na numeryczne) ?
Czy jako miary odległości można zastosować te miary: {‘euclidean’: 0, ‘squared euclidean’:1,‘manhattan’: 2,
‘chebyshev’: 3, ‘minkowski’: 4, ‘chi-square’:5,‘canberra’: 6,}?
Jakie są odpowiednie miary dla tego algorytmu?

Kategorie muszą mieć jakieś cechy, czy to np. wielkość jakąś jak to zwierzę to mógłbyś mieć masę zwierzęcia i kilka takich cech mając próbujesz przewidzieć do jakiego clustra pasuje.

I najbliższy cluster po wykonaniu miary jest kategorią, którą się przewidziało dla danych.

A dystans możesz różny stosować i sprawdzać z danymi testowymi jak sobie radzi, rysując wykresy, jeden algorytm może w przypadku niektórych danych być lepszym od drugiego.

0

@P Pepe: Mógłbyś, dla niekumatych, opisać algorytm PAM?

1

Z opisu https://pl.wikipedia.org/wiki/Algorytm_PAM wynika, że algorytm operuje na metryce Manhattan. A jak dla danych kategorycznych definiujesz odległość? np. Kolor={zielony, żółty, czerwony, niebieski} , Obiekt={samochód, samolot}. Jak bardzo żółty samochód różni się od niebieskiego samolotu?

Po mojemu, to trzeba by te dane zamienić na coś co pozwoli obliczyć odległość w metryce Manhattan, albo użyć innej metryki.

Słowa kluczowe:

  • neural autoencoder
  • Gower's distance
3
yarel napisał(a):

A jak dla danych kategorycznych definiujesz odległość? np. Kolor={zielony, żółty, czerwony, niebieski} , Obiekt={samochód, samolot}. Jak bardzo żółty samochód różni się od niebieskiego samolotu?

Wg algorytmu PAM: żółty od niebieskiego różni się o 2, samochód od samolot różni się o 1 razem wychodzi 2+1=3.
Zawsze dla kategorii można dołożyć wagę: np [5,3], wtedy 2*5+3*1=13
Ale skoro ustaliliśmy wagi to już nie musimy się ograniczać do metryki Manhattańskiej, możemy ustalać odległość wg każdej z kategorii, np:

ObiektDistance(a,b) -> abs(a-b);
ColorDistance(a,b) -> (a!=b?1:0);

A na tym użyć dowolną metrykę.

1 użytkowników online, w tym zalogowanych: 0, gości: 1