Python - NLP- pomoc

0

Cześć, chcę zescrapować pewien tekst z internetu i chciałbym aby python automatycznie odnajdywał pewne frazy zdań - np. oddzielał "nie występuje" od "występuje" - za pomocą jakiej biblioteki coś takiego można zrobić ?

Dziękuję za pomoc
Pozdr.

0

@janosik01:

oddzielał "nie występuje" od "występuje"

Nie czaję za bardzo o co chodzi.

0

@Eldorad O.: Hej, chodzi mi o to aby, python przy analizie tekstu rozróżniał w zdaniu np. "kupiłem samochód" od "nie kupiłem auta" - i mógł potem zakwalifikować czy dana osoba kupiła auto czy nie

0

@janosik01: To mają być frazy angielskie czy polskie?

0

@Eldorad O.: polskie

0

@janosik01: To raczej ciężko będzie o jakieś gotowce, chyba że sam sobie model wytrenujesz.
Większość gotowych modeli opiera się o tekst angielski, polski to raczej nisza.

0

@Eldorad O.: a jak coś takiego stworzyć ?

0

@janosik01: https://pytorch.org/tutorials/

Jeżeli liczysz na szybkie rozwiązanie to cię rozczaruję, musisz się nauczyć sporo, nie zrobisz tego w jeden wieczór.
Na youtube jest kurs NLP od stanforda, ale najpierw zacznij od podstaw machine learningu.

0

Pytanie do kolegi @janosik01 czy jest to projekt komercyjny czy po prostu dostałeś zadania na studiach i na ostatnią chwilę próbujesz coś oddać?

0

@Marcin Marcin: ta druga odpowiedź :)

0

Nie wiem dokładnie jak zaawansowane ma to być ale strzelam, że można to załatwić zwykłym regexem :) Oprócz tego jesli chodzi o scraping to polecam zaznajomić się z podstawą, czyli requests i protokołem HTTP. Potem czego dusza zapragnie - BS4, Scrapy i wiele innych. Można też uderzać w selektory via selenium/js, ale będzie to zdecydowanie bardziej pracochłonne i gorsze wydajnościowo.

0

Nie wiem jak zaawansowane mają byc poszczegolne "filtry" ktore okreslaja ze jest "match" lub bo go nie ma.

Ale mysle ze jak na projekt studencki to pobranie "zescrapowanie" (uzywajac np: bs4) tresci strony nastepnie uzycie (np. nltk tokenizacja itp itd) do usystematyzowania/lapania poszczegolnych fraz lub analizy tekstu byloby wystarczajace.

2
  1. To wygląda trochę jak analiza sentymentu i będzie działać podobnie
  2. Dla języka polskiego trzeba będzie użyc jakiegoś rozwiazania do stemmingu albo lematyzacji (CLP/PLP, Morfeusz, może jest coś nowszego), bo inaczej końcówki fleksyjne cię zjedzą
  3. Zapomnij o jakimś gotowcu i że zrobisz to na szybko

1 użytkowników online, w tym zalogowanych: 0, gości: 1