Pobranie kodu strony .aspx

0

Witam,

Potrzebuję pomocy w pobraniu kodu strony do programu. Muszę pobrać kod tej strony: http://www.moneysupermarket.com/utilities/supplier-reviews.aspx. Próbowałem do tego wykorzystać klasę WebClient, ale wyskakuje błąd "Upłyną limit czasu operacji". Próbowałem też rozszerzyć klasę WebClient żeby wydłużyć timeout dla pobierania danych ale to nic nie dało. Nie mam już pomysłu dlaczego nie chce mi pobrać akurat tej strony. Z innymi nie ma problemu. W internecie też nie znalazłem rozwiązania mojego problemu. Czy ktoś mógłby mi pomóc? Potrzebuję kodu tej strony jako stringa.

0

"Pokaż źródło strony" w przeglądarce? Nic więcej nie wyciągniesz nie mając dostępu do FTP-a (oczywiście pomijam błędy bezpieczeństwa samej aplikacji).

0

Ale chodzi mi o to żeby pobrać kod strony do programu żeby go potem sparsować i wyciągnąć potrzebne informacje. Chodzi mi o pobranie ze strony komentarzy do firm. Plan miałem taki żeby wyszukać na tej stronie linki do komentarzy i po kolei pobierać kod każdej z podstron z komentarzami i wyciągać sobie z nich już same komentarze. Za pomocą klasy WebClient bez problemu aplikacja ściąga mi kod każdej strony oprócz właśnie tej i nie mogę dojść dlaczego.

A może jest inny sposób na pobranie z tej strony samych komentarzy? Niekoniecznie w C#.

0

Po pierwsze upewnij się że ta strona nie ma oficjalnego WebAPI, jak ma to z niego korzystasz nawet jak trzeba zapłacić (jeżeli scrapping przestaje działać jest to twój problem, jeżeli webAPI przestaje działać jest to ich problem).
Po drugie jeżeli nie ma WebAPI to scrapper musi zachowywać się bardzo podobnie do przeglądarki. Prawdopodobnie jakiś Firewall wykrył twoje requesty jako automatyczne i je banuje. Zadbaj o odpowiednie nagłówki w wywołaniu Http oraz o to żeby pobierać nie tylko dokument html ale i jakieś skrypty albo obrazki.

0
szogun1987 napisał(a):

Po pierwsze upewnij się że ta strona nie ma oficjalnego WebAPI, jak ma to z niego korzystasz nawet jak trzeba zapłacić (jeżeli scrapping przestaje działać jest to twój problem, jeżeli webAPI przestaje działać jest to ich problem).
Po drugie jeżeli nie ma WebAPI to scrapper musi zachowywać się bardzo podobnie do przeglądarki. Prawdopodobnie jakiś Firewall wykrył twoje requesty jako automatyczne i je banuje. Zadbaj o odpowiednie nagłówki w wywołaniu Http oraz o to żeby pobierać nie tylko dokument html ale i jakieś skrypty albo obrazki.

Strona nie udostępnia WebAPI, ale o tym, żeby zasymulować przeglądarkę nie pomyślałem. Nie przyszło mi do głowy, ze ta strona może mieć jakiegoś firewalla co blokuje automatyczne requesty. Dzięki za nakierowanie. Będę próbował dalej.

0

Ok. Dziękuję za naprowadzenie na rozwiązanie. Już sobie poradziłem. Wykorzystałem kontrolkę WebBrowser i z niej pobrałem kod załadowanej strony.

1 użytkowników online, w tym zalogowanych: 0, gości: 1