WeiXiao

web skraperzy zapomnieli o selenium? nawet powiedziałbym że lepiej jest gdy wszystko jest api based, bo możesz sam do tego api wysyłać requesty zamiast regexować htmle ;)

Adam Boduch

Takie czasy, frontu nie pisze się już przy pomocy jQuery ale właśnie frameworków typu React.js, Vue.js. Powiem Ci że obecnie pisanie frontu to niebo a ziemia w porównaniu z tym co było kiedyś. Bajka. Jest to naprawdę przyjemne. Z ciekawostek powiem, że wspomniany Nuxt.js ma możliwość renderowanie po stronie serwera i wyplucia gotowego już kodu HTML do klienta.

Spearhead

@WeiXiao: jak scrapujesz dziesiątki tysięcy podstron to narzut z renderowaniem ich przez headless browser zaczyna przeszkadzać. A API jak najbardziej fajnie mieć, tylko proszę, by było sensowne i zwracało dane, a nie funkcję do ich generowania.

Wibowit

@Spearhead: zamiast odpalać headless browser czy ręcznie coś targać z HTMLi i JSów to można użyć Node.js + https://github.com/jsdom/jsdom jsdom is a pure-JavaScript implementation of many web standards, notably the WHATWG DOM and HTML Standards, for use with Node.js. In general, the goal of the project is to emulate enough of a subset of a web browser to be useful for testing and scraping real-world web applications.

WeiXiao

@Spearhead: a że tak zapytam, a dlaczego ktoś miałby ci ułatwiać scrapa? ktoś Ci wystawia te dane, czy po prostu "kradniesz"?

WeiXiao

@Wibowit: oj tam od razu gotowce, samemu można napisać engine jsa ;)