Przemyślenia nt. sterowania gestami

0

Witajcie.
Jestem na etapie przygotowania założeń do projektu programu, który ma za zadanie sterować odtwarzaczem muzyki za pomocą gestów (odczytywanych z kamery). Planuję wykorzystać do tego celu Javę(ewentaulnie biorę pod uwagę C#, ale to tylko w przypadku jakiegoś miażdżącego argumentu). W związku z tym mam parę pytań:

  1. jak wygląda kwestia dobrania się do kamerki w Javie? Czy istnieje jakiś spójny interfejs, który działa na różnych platformach?
  2. Zastanawiam się nad sposobem realizacji wykrywania ruchu - proste porównywanie aktualnej klatki z obrazem referencyjnym i założenie, że w danym obszarze "coś się zmieniło" nie wchodzi w grę - sterowanie ma się odbywać albo przy pomocy palca(i tu przyjdzie do problemu jego wykrywania), albo wykrywania jakiegoś specjalnego tokenu. Czy ktoś z was realizował może podobny projekt, i może podzielić się doświadczeniami/przemyśleniami na temat takiego wykrywania?
  3. Zastanawiam się jak duży powinien być obiekt, który trzeba wykrywać(token/palec, wszystko jedno) - będziemy korzystać raczej ze standardowych kamer montowanych w laptopach(więc jakość około VGA - raczej nie nastawiamy się na 720p) - czy palec jest odpowiednio dużym(i charakterystycznym) obiektem ?

Z góry dziękuję za wszelkie konstruktywne komentarze;)

0

Język, API do kamery i wszystko inne jest mało znaczące w porównaniu do trudności w oprogramowania modułu rozpoznawania ruchu.

Jak nie jesteś znawcą tematu, a mimo wszystko chcesz to zrobić to proponuję trzymany w dłoni kolorowy, jaskrawy marker - wtedy jest szansa, że Ci się uda...

Drugą kwestią jest sieć neuronowa - nie obejdzie się bez wielowarstwowej sieci neuronowej ze wsteczną propagacją błędów, która rozpozna, o który gest chodziło.

Jednak, obrazy z kamery podawane wprost na sieć neuronową są zbyt skomplikowane, więc będziesz musiał pewnie skorzystać z czegoś podobnego do algorytmu PCM (Principle Component Analysis), a do tego przydałaby się znajomość wyższej alebry liniowej. Nie straszę - bo to da się zrobić...

Dla przykładu, co bardziej kumaci studenci pierwszego roku infy piszą programy do rozpoznawania liter pisanych, a to bardzo uproszczony problem Twojej kategorii.


Opolski Portal Programistyczny
http://programowanie.opole.pl

0

Dziękuję za odpowiedź ;)
Zagadnienia związanie z siecią neuronową są mi (może nie na poziomie eksperckim) znane - planowałem na wejście sieci podawać narysowany wzór(jakaś krzywa) - np. w kształcie litery L -> pauza, O -> play itp. Nie wiem jednak czy zrobimy na zasadzie gestów, czy na zasadzie naciśnięcia przycisku - to już "wyjdzie w praniu" - wszystko jednak sprowadza się nam do problemu odczytania obrazu i detekcji odpowiedniego elementu - i głownie na przemyśleniach z tego zakresu nam zależy ;)

1 użytkowników online, w tym zalogowanych: 0, gości: 1