Cześć, chcę zescrapować pewien tekst z internetu i chciałbym aby python automatycznie odnajdywał pewne frazy zdań - np. oddzielał "nie występuje" od "występuje" - za pomocą jakiej biblioteki coś takiego można zrobić ?
Dziękuję za pomoc
Pozdr.
Cześć, chcę zescrapować pewien tekst z internetu i chciałbym aby python automatycznie odnajdywał pewne frazy zdań - np. oddzielał "nie występuje" od "występuje" - za pomocą jakiej biblioteki coś takiego można zrobić ?
Dziękuję za pomoc
Pozdr.
@Eldorad O.: Hej, chodzi mi o to aby, python przy analizie tekstu rozróżniał w zdaniu np. "kupiłem samochód" od "nie kupiłem auta" - i mógł potem zakwalifikować czy dana osoba kupiła auto czy nie
@janosik01: To mają być frazy angielskie czy polskie?
@Eldorad O.: polskie
@janosik01: To raczej ciężko będzie o jakieś gotowce, chyba że sam sobie model wytrenujesz.
Większość gotowych modeli opiera się o tekst angielski, polski to raczej nisza.
@Eldorad O.: a jak coś takiego stworzyć ?
@janosik01: https://pytorch.org/tutorials/
Jeżeli liczysz na szybkie rozwiązanie to cię rozczaruję, musisz się nauczyć sporo, nie zrobisz tego w jeden wieczór.
Na youtube jest kurs NLP od stanforda, ale najpierw zacznij od podstaw machine learningu.
Pytanie do kolegi @janosik01 czy jest to projekt komercyjny czy po prostu dostałeś zadania na studiach i na ostatnią chwilę próbujesz coś oddać?
@Marcin Marcin: ta druga odpowiedź :)
Nie wiem dokładnie jak zaawansowane ma to być ale strzelam, że można to załatwić zwykłym regexem :) Oprócz tego jesli chodzi o scraping to polecam zaznajomić się z podstawą, czyli requests
i protokołem HTTP
. Potem czego dusza zapragnie - BS4
, Scrapy
i wiele innych. Można też uderzać w selektory via selenium/js
, ale będzie to zdecydowanie bardziej pracochłonne i gorsze wydajnościowo.
Nie wiem jak zaawansowane mają byc poszczegolne "filtry" ktore okreslaja ze jest "match" lub bo go nie ma.
Ale mysle ze jak na projekt studencki to pobranie "zescrapowanie" (uzywajac np: bs4) tresci strony nastepnie uzycie (np. nltk tokenizacja itp itd) do usystematyzowania/lapania poszczegolnych fraz lub analizy tekstu byloby wystarczajace.
analiza sentymentu
i będzie działać podobniena szybko