Witam, od jakiegoś czasu zmagam się z małym problemem.
Ogólnie moim zadaniem jest konwersja formatu html do fo (apache fop)
Problem pojawia się w chwili pozbycia się znaczników nierozpoznanych przez algorytm.
Poniżej przykład:
<b>tekst</b>
<fo:inline font-family="Helvetica">tekst... tekst...</fo:inline>
W przykładzie chcę pozbyć się wszystkich nie rozpoznanych znaczników, do tego celu używam wyrażenia regularnego, a właściwie AŻ! dwóch... :) ...
<[(/?fo:)].?>
i
</[(fo:)].?>
Chciałbym zapiąć całość w jedno wyrażenie no ale niestety pierwsze wyrażenie łapie tylko nie fopowe znaczniki rozpoczynające, a drugie tylko zamykające. Z tego co rozumiem to wyszukuje wyrażeń które: zaczynają się od "<" następnie
mają lub też nie znak "/", dalej nie może być "fo:", następnie dowolny ciąg znaków i znacznik zamknięcia ">". Jeżeli to co napisałem było by prawdą to niezidentyfikowane znaczniki zamknięcia też powinny się w to łapać, ale niestety tak nie jest :/
Dodam, że wyrażenie można testować pod adresem: http://www.regexplanet.com/simple/index.html
Proszę o pomoc....