Inna opcja: szukał bym usługi chmurowej która już to robi. Są usługi co rozpoznają piosenki, wystarczy zanucić lub zagwizdać.
https://movies.meta.stackexchange.com/questions/4129/how-can-i-find-the-title-of-a-movie-from-just-a-description-or-image
https://tineye.com/
To i tak już "wyższa szkoła jazdy" i bardziej złożony problem.
Bardziej znane aplikacje rozpoznające muzykę, czyli Shazam i SoundHound nie wiem, jak działają, ale wymiękają nawet na koncercie, bootlegu, czy mało znanym remiksie, więc gwizdania, śpiewania tym bardziej nie rozpoznają.
Nie wiem, jakie mają algorytmy, ale często zdarza się, że Shazam podaje zupełnie inny utwór niż ten, które go faktycznie słyszy. Ale z drugiej strony, programista "zapomniał" o jednej bardzo istotnej sprawie: Aplikacja rejestruje dźwięk, a potem dopasowuje do nagrań z bazy, na pewno można wyrazić liczbowo stopień podobieństwa nagrania do danego utworu. Nie rozumiem, co to za problem podać np. trzy najbardziej pasujące utwory do danego "shazamowania" (taką nazwą autorzy Shazam określają czynność polegającą na nasłuchiwaniu nagrania w celu ustalenia, jakie to nagranie) wraz z podanym stopniem dopasowania. Mając stopień dopasowania, można też stwierdzić, czy aplikacja prawdopodobnie dobrze rozpoznała, czy dała jakiś przypadkowy utwór, który jest tylko trochę podobny do rozpoznanego dźwięku.
Z powyższego "zapominalstwa" programisty, ja dla pewności shazamuje to samo nagranie co najmniej dwa razy, oczekując, że apka poda dwa razy to samo. Nie shazamuję rozbiegówki, która w wielu nagraniach może brzmieć podobnie.