Wyrażenia regularne - czyszczenie pliku html (Java)

0

Pobieram stronę www w Javie, linijka po linijce zapisuję do zmiennej typu String dane by później na nich operować, tylko mam pytanie, jak mogę usunąć wszystkie znaczniki i artybuty znajdujące się pomiędzy <(początek) , a >(koniec).
np.

 <td class="tac"><b>1.0</b><td class="tac">0.0<td class="tac"><b>1.0</b><td class="tac">0.0<td class="tac">0.0<td class="tar"><b>2.0</b>&nbsp;</td>
</tr>

W tym przypadku by zostało
1.0 0.0 1.0 0.0 0.0 2.0 &nbsp;

Może ktoś umie dobrze wyrażenia regularne i ma pomysł jaki wzór do tego zastosować, by wyłapać wszystkie znaki pomiędzy < >. Bo samo <> na końcu już nie będzie problemem do usunięcia.

Lub może zamiast wyrażeń regularnych polecicie klasę do właśnie wyciagania samego tekstu z dokumentu html, tak jak to widać przez przeglądarkę;).
Z góry dzięki. Pozdrawiam

0

Perlowy skrypt który zrobi to o czym piszesz:

while (<STDIN>) 
{           
    $_ =~ s/<.*?>/ /gs;
    print "$_";
} 

W javie proponuje skorzystać z tego samego regexpa:

<.*?>

i zrobić za jego pomocą replace pasujacych fragmentów na spacje.

0

Dzięki za wszystkie odpowiedzi, teraz wszystko gra.

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0