Pobranie tekstu ze strony www

0

Witam, Chciałbym pobrać dane ze strony przy użyciu Javy znam jeden sposób ale on pobiera całą zawartość wraz z kodem HTML, a chciałbym tego uniknąć. Najlepiej gdyby program pobierał dane do pliku tekstowego, który później można było swobodnie przeczytać bez znaczników.
To mój kod, który pobiera dane ze znacznikami, czy da się go jakoś zmienić by działał pod moje potrzeby?

public class URLReader { 
    public static void main(String[] args) { 
        try { 
            String doi = "http://4programmers.net/";
            String plik = "strony.html";
            URL link_doi = new URL(doi);
            URLConnection doi_conn = link_doi.openConnection(); 
            doi_conn.addRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36");
            BufferedReader in = new BufferedReader(new InputStreamReader(doi_conn.getInputStream())); 
            String tekst; 
            PrintWriter przypisz = new PrintWriter(plik);
            while ((tekst = in.readLine()) != null) { 
                przypisz.println(tekst);
            } 
            System.out.println("Pobranie danych powiodło się!");
            in.close(); 
            
        } catch (Exception e) { 
            e.printStackTrace(); 
        } 
    } 
}
0

Ja do pobrania konkretnej wartości ze strony używałem http://jsoup.org/ . Zobacz czy się nada w Twoim przypadku.

0

Używałem wcześniej jsoup'a i fakt działało z tym, że musiałem znać strukturę strony. A chciałbym zrobić tak by pobierało mi dane ze strony niezależnie od tego czy ją znam czy nie. Np mam pobrać ze strony http://link.springer.com/chapter/10.1007%2F11427834_9 tytul, ilosc stron ksiązki. i tu pojawia się problem. Chyba że jest taki sposób by np dać warunek gdzie jest słowo **pages **to pobiera następne słowa czyli ilość stron.

1 użytkowników online, w tym zalogowanych: 0, gości: 1