Jaką metodę dobrać do analizy danych?

0

Witam,
robię mniejszy projekt z machine learningu na zaliczenie. Mój dataset https://www.kaggle.com/rtatman/chocolate-bar-ratings . Moim zadaniem jest zbadać wpływ poszczególnych zmiennych na jakość produktu. (taki mam pomysł, jeżeli ktoś ma jakieś obiekcje to jestem otwarty na sugestie). Największą moją zagwozdką jest dobrać odpowiednią metodę do tego i tu jest moje pytanie, potrzebuje 2 propozycje. Jakiej metody mógłbym użyć do badania tego typu zjawiska? Co do technologii to myślałem, aby użyć tensorflow.

Z góry dzięki za rady

2

Na początek nie potrzebujesz tego czy owego frameworka / narzędzia będącego mniej lub bardziej na topie w ML. Potrzebujesz podstawowych narzędzi statystycznych.

  • histogramy, histogramy skategoryzowane - dostajesz najbardziej ogólne pojęcie o tym, co siedzi w tych danych
  • wykresy rozrzutu, macierze korelacji - na pierwszy rzut oka możesz zobaczyć, co ze sobą współgra a co nie
  • przedziały ufności, odsianie najbardziej odstających danych - pozbywasz się głupot, które mogą zaburzyć wynik
  • drzewa klasyfikacyjne, jakieś grupowanie, k-means, podobne zabawki

Jak już poprzekopujesz w te i inne sposoby dane, to prawdopodobnie zacznie Ci świtać, co siedzi w tych danych i czym je można ugryźć, i będziesz już sam się bawił ;)

0

Jak Używasz Pythona to do załadowania i obrabiania danych: pandas + scikitLearn + matplotlib, a jako algorytm, sprawdzi się "Random Forrest" (jest również w scikitLearn).

0

Dobra dzięki. Pytanie również w jaki sposób odzwierciedlic w programie dane typu "kraj pochodzenia", "nazwa firmy" itd Jak siec ma to interpretowac skoro to również może być czynnik który wchodzi w analize danych.

0
Czitels napisał(a):

Dobra dzięki. Pytanie również w jaki sposób odzwierciedlic w programie dane typu "kraj pochodzenia", "nazwa firmy" itd

To są dane jakościowe. Nie bardzo masz jak je zmierzyć, ale możesz je wykorzystać do grupowania :) np. może się okazać, że nie ma korelacji między zawartością kakao a subiektywną jakością, dopóki nie pogrupujesz danych według kraju odbiorcy - wtedy się okaże, że np. Szwedzi preferują mleczną czekoladę, a Duńczycy gorzką ;)

Jak siec ma to interpretowac skoro to również może być czynnik który wchodzi w analize danych.

Analizując korelacje, histogramy, klasyfikując itd. możesz wykorzystać te zmienne jako zmienne grupujące Twoje dane ilościowe :)

Zasada jest taka:

  • ilościowe - wszystko mierzalne, np. cena, zarobki, wiek, wzrost, temperatura, zawartość kakao
  • jakościowe - dane nie-liczbowe, np. kolor włosów, materiał z którego wykonano opakowanie, gatunek czekolady (biała / mleczna / gorzka...)
0

Szczerze powiedziawszy mam jakąś wstępną analizę, ale nadal nie mam pomysłu co można z tym zrobić, ani jakiej konkretnie metody użyć, aby zrobić cokolwiek. Myślałem, aby użyć sieci kohonena i pogrupować je w np jakości czekolady od kraju pochodzenia.

0
Czitels napisał(a):

Szczerze powiedziawszy mam jakąś wstępną analizę, ale nadal nie mam pomysłu co można z tym zrobić, ani jakiej konkretnie metody użyć, aby zrobić cokolwiek. Myślałem, aby użyć sieci kohonena i pogrupować je w np jakości czekolady od kraju pochodzenia.

Jak już wykonałeś na tych danych podstawową analizę i wiesz już, które dane ilościowe są istotne, które jakościowe odsłaniają jakieś zależności niewidoczne dla zbiorczych danych itd. możesz sobie pozwolić na odrzucenie najmniej istotnych danych i dopiero to, co Ci zostanie wrzucać do jakichś modeli - po co mają Ci grandzić, poza tym gdybyś ubzdurał sobie tworzyć model próbujący ustalić idealne cechy czekolady na rynek Francuski, a nie odrzucisz wystarczająco wielu nieistotnych zmiennych, wpakujesz się w "przekleństwo wielowymiarowości" ;)

0

Tu: https://forums.fast.ai/t/another-treat-early-access-to-intro-to-machine-learning-videos/6826 Znajdziesz jak przygotować dataset, i polecam Random Forest na początek.

0

Dobra, udało się, dzięki. Projekcik wyszedł dobrze chodź czuję niedosyt lekki. Użyłem RandomForestClassification. Dla czekolad z rankingiem większym niż 3.7 klasyfikowało jako wartą uwagi czekoladę, dla tych poniżej jako nie wartą uwagi. Ustaliłem przez to cel do którego ma dążyć. Po podrasowaniu algorytmu i pozbyciu się overfittingu udało mi się dobić do 82% skuteczności. Jaki rezultat? Z Feature Importance można wywnioskować, że największy wpływ na jakość czekolady ma:

  1. Ilość procentowa kakao. Ten wynik bije na głowę wszystkie inne.
  2. Nazwa Firmy tudzież firma która to robiła
  3. Źródło pochodzenia ziarna kakaowca.
  4. Kraj w którym jest fabryka. ( tu było coś około 0%)
    Resztę kategorii usunęliśmy.

Teraz planuje w wolnym czasie zabrać się za jakąś poważną analizę, może wykorzystując materiały, które podsyłacie. Nie ukrywam, że zainteresowałem się zagadnieniem Machine Learningu. Muszę tylko nadrobić trochę braków w podstawach dotyczących tym czym jest regresja, klasyfikacja itd. Teraz pytanie też jaki wziąć dataset. W każdym razie jak coś to pewnie stworze nowy temat.

0

My tam na UJocie to bawiliśmy się w takie rzeczy korzystając głównie z R.

1 użytkowników online, w tym zalogowanych: 0, gości: 1