Cześć,
Mam stronę HTML, z której chcę "wyłuskać" potrzebne mi informacje. Część kodu takiej strony:
<td style="vertical-align: top;"><a href="Ajdukiewicz/Index.htm">Ajdukiewicz,
Tadeusz</a><br>
</td>
<td style="vertical-align: top; text-align: center;"><big>1852-1916</big><br>
</td>
<td style="vertical-align: top; text-align: center;"><big>15</big><br>
</td>
</tr>
<tr>
<td style="vertical-align: top;"><big><a
href="Alchimowicz/Index.htm">Alchimowicz, Kazimierz</a><br>
</big></td>
<td style="vertical-align: top; text-align: center;"><big>1840-1916<br>
</big></td>
<td style="vertical-align: top; text-align: center;"><big>8<br>
</big></td>
</tr>
Chcę z tego kodu wyciągnąć imiona i nazwiska. Załóżmy, że w zmiennej String firstPage mam cały ten kod html. Domyślam się że trzeba używać wyrażeń reguarnych, ale jak na razie mam z tym problemy...
Na razie wymyśliłam coś takiego (domyślam się, że wyrażenie regularne jest w ogóle złe). Poza tym, niestety jak można zauważyć tagi, które otaczają pierwsze nazwisko i drugie są troche inne (w jednym jest <big> </big> w drugim nie ma, no i tak jest na całej stronie - raz jest końcówka </a></big> raz </big></a> itd). Mógłby ktoś pomóc?:)
Pattern wzorzec=Pattern.compile("<td .+><a href.+>(A.+)</a>");
Matcher sekwencja=wzorzec.matcher(firstPage);
Vector<String> w=new Vector<String>();
while(sekwencja.find())
{
int start=sekwencja.start();
int end=sekwencja.end();
w.add(firstPage.substring(start, end));
}