W tej chwili piszę program, którego jedną z funkcjonalności jest wykrywanie URL w tekście. Powinno wykrywać takie linki jak
http://google.com/?q=wyraz
https://google.com/?q=wyraz
google.com/
google.com
i tak dalej.
Wszystko jest oprogramowane z tym że, została mi jeszcze kwestia jakie znaki mogą być w części http://google
oraz /?q=wyraz
. Czyli przed i po .com
.
Czytałem trochę o tym i dowiedziałem się że w tej pierwszej części mogą być znaki a..z
, 0..9
, .
oraz -
w środku. Nie znalazłem wzmianki o _
(też może być czy nie? :( ). Jak jest z dużymi literami?
Na logikę nie można mieć domen z polskimi znakami, jednakże kiedyś widziałem adres "gimnazjum.zdjęcia.com''. nie wiem czy to był jakiś trik z przekierowaniami i mod_rewrite(?) ale czy program powinien "akceptować" takie linki?