Znajdowanie slow kluczowych w tekscie

0

Potrzebowalbym algorytm jak w danym tekscie znalezc slowa kluczowe. Wiem ze brzmi to jak prosba o przepis na to jak zostac bogaczem w siedem dni ;) Myslalem nad czyms takim:

Mam baze tekstow i powiedzmy pozliczane wyrazy rozne w ktorym tekscie jakich wyrazow bylo duzo itp. Chce dodac nowy tekst do bazy i potrzebowalbym go zindeksowac. Czyli zliczenie wyrazow tak jak we wczesniej dodanych tekstach i porownanie czy jesli dany wyraz wystepuje w nowo dodawanym tekscie czesto a w innych tekstach go nie bylo za duzo to czy cos takiego mozna uznac za slowo kluczowe? Oczywistym jest ze slow: 'jest', 'są', 'już' bedzie bardzo duzo i one slowami kluczowymi na pewno nie sa. Dlatego zrobienie listy slow wystepujacych bardzo czesto i jak bede dodawal nowy tekst do bazy to zeby slowa ktorych jest ogromna ilosc aby ich unikac a zostawic tylko te ktore wystepuja rzadziej na tle innych tekstow.

Nie wiem czy mysle w dobrym kierunku. Nie chce strcic sporo czasu na pisanie czegos co okaze sie bezuzyteczne ;) Moze sa jakies algorytmy lepiej znajdujace slowa kluczowe.

0

Poczytaj sobie o lematyzacji (zamianie na slowa bazowe) i o metodzie tf-idf (znajdywanie slow kluczowych).

pozdrawiam
johny

0

Troche poszukalem i juz wiem ze bedzie problem z lematyzatorem ;) Co prawda jest nawet gotowy do jezyka polskiego jednak napisany w javie co wszystko mi psuje. Moze da sie jakos to ominac/zastapic/przerobic. Wyniki zapewne beda wtedy mniej dokladne ale nie pisze google aby specjalnie sie tym przejmowac ;)

Co do metody tf-idf to czy naprawde to wszystko sprowadza sie do
http://instruct.uwo.ca/gplis/601/week3/tfidf.html
tego co tutaj jest? Niebardzo takze rozumiem znaczenie literki 'n' bo jak stwierdzic ile razy dane slowo wystapilo najmniejsza ilosc razy? Moze powinienem o czyms jeszcze wiedziec zanim zaczne pisac? ;)

0
Pedros napisał(a)

Troche poszukalem i juz wiem ze bedzie problem z lematyzatorem ;) Co prawda jest nawet gotowy do jezyka polskiego jednak napisany w javie co wszystko mi psuje. Moze da sie jakos to ominac/zastapic/przerobic. Wyniki zapewne beda wtedy mniej dokladne ale nie pisze google aby specjalnie sie tym przejmowac ;)

Co do metody tf-idf to czy naprawde to wszystko sprowadza sie do
http://instruct.uwo.ca/gplis/601/week3/tfidf.html
tego co tutaj jest? Niebardzo takze rozumiem znaczenie literki 'n' bo jak stwierdzic ile razy dane slowo wystapilo najmniejsza ilosc razy? Moze powinienem o czyms jeszcze wiedziec zanim zaczne pisac? ;)

Troche wiecej jest tutaj:

http://en.wikipedia.org/wiki/Tf-idf

I tak - wybor slow kluczowych w zasadzie sprowadza sie do wyliczenia miar wszystkich slow i wybrania czesci z nich. Literka n oznacza ilosc dokumentow, w ktorych dane slowo wystapilo chociaz raz.

Lematyzator, o ktorym piszesz to pewnie lematyzator Dawida Weissa, ja z niego korzystalem - ale ja pisalem w Javie, wiec bylo nawet na reke.

pozdrawiam
johny

1 użytkowników online, w tym zalogowanych: 0, gości: 1