Dobra, udało się, dzięki. Projekcik wyszedł dobrze chodź czuję niedosyt lekki. Użyłem RandomForestClassification. Dla czekolad z rankingiem większym niż 3.7 klasyfikowało jako wartą uwagi czekoladę, dla tych poniżej jako nie wartą uwagi. Ustaliłem przez to cel do którego ma dążyć. Po podrasowaniu algorytmu i pozbyciu się overfittingu udało mi się dobić do 82% skuteczności. Jaki rezultat? Z Feature Importance można wywnioskować, że największy wpływ na jakość czekolady ma:
- Ilość procentowa kakao. Ten wynik bije na głowę wszystkie inne.
- Nazwa Firmy tudzież firma która to robiła
- Źródło pochodzenia ziarna kakaowca.
- Kraj w którym jest fabryka. ( tu było coś około 0%)
Resztę kategorii usunęliśmy.
Teraz planuje w wolnym czasie zabrać się za jakąś poważną analizę, może wykorzystując materiały, które podsyłacie. Nie ukrywam, że zainteresowałem się zagadnieniem Machine Learningu. Muszę tylko nadrobić trochę braków w podstawach dotyczących tym czym jest regresja, klasyfikacja itd. Teraz pytanie też jaki wziąć dataset. W każdym razie jak coś to pewnie stworze nowy temat.