Witam,
w niedalekiej przyszłości, trochę z wyboru, trochę z przymusu, będę pisał pracę dyplomową na temat metod filtrowania spamu przy wykorzystaniu filtrów Bayesa.
W kwestiach uszczegóławiania tematu mam wolną rękę, dlatego też zwracam się tutaj na forum o jakieś sugestie/ podpowiedzi, bo być może jest tutaj osoba bliżej zaznajomiona z problematyką..
Zastanawiam się nad następującymi rzeczami:
1) Czy łatwiej jest przygotować filtr, który będzie filtrował spam w komentarzach np. na blogu, czy w skrzynce pocztowej ? Mam tutaj dylemat, gdzie chciałbym 'osadzić' przygotowany przeze mnie filtr. Imo trudniej jest filtrować spam w komentarzach, ponieważ tutaj dochodzi kwestia tematyczności komentarza, ale nie jestem pewien czy dobrze myślę..
**2) Czy trudniej jest filtrować spam będący w j. polskim niż w j. angielskim ? ** Temat filtrów Bayesa na razie znam powierzchownie, ale z tego co przeczytałem w literaturze, to w uproszczeniu wystarczy 'przepuścić' dwa zbiory wiadomości *ham *i *spam *przez takowy filtr i na tej podstawie budowane są dane statystyczne występowania poszczególnych słów dla różnych typów wiadomości.. Czyli teoretycznie sam język jako tako nie powinien mieć znaczenia.. [??]
Z drugiej strony spotkałem się też z podejściem, gdzie (również w uproszeniu) wcześniej analizuje się cały tekst, wykonuje odpowiednią kategoryzację słów, wyznacza się z nich leksemy i dopiero potem wykonuje analizę statystyczną występujących słów (leksemów). Tylko w tym przypadku pojawia się nowy problem przetwarzania języka naturalnego dla danego języka.. O ile dla j. angielskiego istnieją już stosunkowo dobre narzędzia, o tyle dla j. polskiego jest gorzej (nie wiem czy w ogóle coś bym znalazł..).
Teraz jeszcze kwestie implementacyjne:
W sieci można dość sporo znaleźć już zaimplementowanych filtrów Bayesa, np. program SpamAssassin, który z tego co wyczytałem można 'podpiąć' do niektórych programów/ serwerów pocztowych..
-
Chciałbym zrobić coś podobnego, tzn. przygotować własny filtr, który następnie mógłbym podpiąć pod jakiego klienta pocztowego, z tym że za bardzo nie mam 'wizji' jak to miałoby wyglądać.. Tzn. nie mogę zlokalizować który klient pocztowy na takie coś pozwala i w jaki sposób moja implementacja filtra miałaby z takim klientem/serwerem współdziałać..
-
I dlatego, w odniesieniu do punktu 4). pomyślałem aby zrobić własnego klienta, który miałbym wbudowany mój filtr.. z tym, że wtedy filtracja odbywa się dopiero po stronie klienta (na desktopie), co za bardzo mi się to nie widzi..
EDIT:
- A czy możliwa byłaby 'konstrukcja' - PROXY, tzn. wiadomości byłyby pobierane np. z serwera gmaila do serwera PROXY, gdzie następowałaby filtracja, i następnie przefiltrowane wiadomości byłby z powrotem przesyłane na skrzynkę gmaila.. ? Wpadł mi po prostu pomysł z zastosowaniem serwera pośredniczącego niejako w procesie filtracji.. ale może można to lepiej rozwiązać..
Kończąc..
Chciałbym, abyście wypowiedzieli się na każdych z podpunktów.. Moja wiedza w ujęciu całościowym jest niepewna, więc jeżeli ktoś czuje się kompetentny w temacie to proszę o wypowiedzenie się.. ;)