Pobranie tekstu ze strony www

Odpowiedz Nowy wątek
2014-12-07 14:50
0

Witam, Chciałbym pobrać dane ze strony przy użyciu Javy znam jeden sposób ale on pobiera całą zawartość wraz z kodem HTML, a chciałbym tego uniknąć. Najlepiej gdyby program pobierał dane do pliku tekstowego, który później można było swobodnie przeczytać bez znaczników.
To mój kod, który pobiera dane ze znacznikami, czy da się go jakoś zmienić by działał pod moje potrzeby?

public class URLReader { 
    public static void main(String[] args) { 
        try { 
            String doi = "http://4programmers.net/";
            String plik = "strony.html";
            URL link_doi = new URL(doi);
            URLConnection doi_conn = link_doi.openConnection(); 
            doi_conn.addRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36");
            BufferedReader in = new BufferedReader(new InputStreamReader(doi_conn.getInputStream())); 
            String tekst; 
            PrintWriter przypisz = new PrintWriter(plik);
            while ((tekst = in.readLine()) != null) { 
                przypisz.println(tekst);
            } 
            System.out.println("Pobranie danych powiodło się!");
            in.close(); 

        } catch (Exception e) { 
            e.printStackTrace(); 
        } 
    } 
}

Pozostało 580 znaków

2014-12-07 16:30
0

Ja do pobrania konkretnej wartości ze strony używałem http://jsoup.org/ . Zobacz czy się nada w Twoim przypadku.

Pozostało 580 znaków

2014-12-07 17:24
0

Używałem wcześniej jsoup'a i fakt działało z tym, że musiałem znać strukturę strony. A chciałbym zrobić tak by pobierało mi dane ze strony niezależnie od tego czy ją znam czy nie. Np mam pobrać ze strony http://link.springer.com/chapter/10.1007%2F11427834_9 tytul, ilosc stron ksiązki. i tu pojawia się problem. Chyba że jest taki sposób by np dać warunek gdzie jest słowo pages to pobiera następne słowa czyli ilość stron.

Pozostało 580 znaków

Odpowiedz
Liczba odpowiedzi na stronę

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0