Mam wyzwanie z zakresu data science. Nigdy wcześniej nie siedziałem w tym temacie (jestem devem z 10+ lat doświadczenia w appkach webowych, głównie java)
Proszę o wskazówki, czy da się to ugryźć względnie łatwo, jakich narzędzi użyć
mam duży zbiór danych (teraz ok 1 mln rekordów i rośnie)
każdy rekord ma zestaw cech, np
{
"id": "1",
"attributes": {
"attr1": 15
"attr2": "AB"
"attr3": "CD"
"attr4": 55645
}
}
mam też inny zestaw rekordów, w których brakuje jednej cechy, weźmy na ten przykład attr4
{
"id": "56442",
"attributes": {
"attr1": 15
"attr2": "AB"
"attr3": "CD"
"attr4": null
}
}
pozostałe cechy są znane.
brakującą cechę można dosztukować/szacować znajdując lookalikes ze zbioru, w którym mamy komplet danych. Nie musi to być precyzyjne dopasowanie, może być zbliżone.
Będę wdzięczny za wskazówki ja ugryźć temat i z jakich narzędzi najlepiej skorzystać.
Jeśli umieściłem wątek pod niewłaściwą kategorią - przepraszam z góry, nie znalazłem nic stricte datascience.