Wydaje mi się, że każdy kto umieszcza stronę w internecie zezwala na jej pobieranie do własnych celów - przecież każdy ma włączone cache w przeglądarce a jakoś nie słyszałem żeby za to zamykali. Myślę, że rozsądnym jest w takim programie zwracanie uwagi na pliki robots.txt w których autor powinien zaznaczyć jakie części serwisu są "publiczne" a jakie zakazane. Problem możesz mieć jeśli serwis wykaże, że działasz na jego szkodę np. przez zżeranie nadmiernie transferu czy DoS, ale wtedy musiał by to udowodnić. Natomiast publikowanie czegoś bez zaznaczenia źródła to już mi zakrawa na kradzież - myślę, że wystarczy źródło w postaci adresu tak jak jest to w klasycznych przeglądarkach. Oczywiście nie jestem żadnym ekspertem biorę to na logikę.
aha jeszcze odnośnie:
- inny przykład: strona/skrypt, gdzie z artykułów 4p (po podaniu np. linka) bedzie robic pdf'a i tez podawac źródło na jego koncu...
IMO otrzymujesz surowe dane protokołem http i HTML można interpretować na własny sposób prezentacja tego bełkotu znaczników należy do ciebie. Pytanie czy można zmieniać część merytoryczną takiego tekstu np. przez "poprawianie błędów w locie" i podpisywanie źródłem...