Wątek przeniesiony 2023-05-20 11:10 z Python przez Riddle.

Web scrapper 200 stron

0

Cześć,
Mam pytanie dot. możliwości codziennej weryfikacji treści ponad 200 stron internetowych. Dokładniej chodzi o fakt, ze codziennie ręcznie muszę sprawdzać czy na każdej ze stron powiatowych urzędów pracy pojawiła się informacja na temat rozpoczęcia naboru jednego z projektów. Jeżeli tak zapisuje ręcznie informacje na temat tego w jakiej miejscowości i w jakim okresie taki nabór trwa. Wiem ze istnieją różne scrappery etc. ale nigdzie nie znalazłem odpowiedzi czy na podstawie pliku z linkami do tych stron będę mógł codziennie automatycznie zweryfikować pojawienie się nowego ogłoszenia z dana fraza np. „Rusza nabór” oraz pobranie informacji dot daty. Będę bardzo wdzięczny za wszelkie wskazowki bo w taki sposób tracę do 2 godzin dziennie.

2

Ja strony sa proste to pobirasz ich zawsrtosc w postaci htmla i szukasz odpowiednich zwrotów i wartości w tagach. Gorzej jak wymagają jakiegos logowania itp. Mozesz użyć np czegoś takiego https://scrapy.org/

1

A musi to być w Pythonie?

0

Wiesz co, słyszałem ze coś takiego ludzie piszą na pythonie ale myśle ze js. tez załatwi sprawę. Zależy mi na tym aby był to automat, który raz odpalony wykona dana czynność importując dane do arkusza excel

0

Nie wiem, jaką niezawodność tego szukania da się zapewnić - albo ile "false positive"

Akurat kiedyś byłem psychoanalitykiem, który wysłuchiwał żale prezesa za "nie trafienie" w ogłoszony przetarg (nie byłem z tym związany)

0

Naiwny scrapper "pęknie" jak tam (po stronie portali ) większość będzie zrobione javascriptem.

KryBag napisał(a):

Wiesz co, słyszałem ze coś takiego ludzie piszą na pythonie ale myśle ze js. tez załatwi sprawę. Zależy mi na tym aby był to automat, który raz odpalony wykona dana czynność importując dane do arkusza excel

Jak myślisz o algorytmie scrapera w JS, to widać, ze nie masz wyczucia technicznego.
Mozę komuś to zlecić ?
Sam nie zrobić tego tak dobrze, jak byś oczekiwał.

1 użytkowników online, w tym zalogowanych: 0, gości: 1