c# - zczytywanie tytułów newsów ze strony

0

Witam, mam do napisania małą aplikację, która po wejściu na stronę internetową spisze ileśtam pierwszych tytułów newsów. Tam potem będę musiał coś dalej z nimi robić ale to już sobie poradzę. Generalnie język do wyboru dowolny, a że ostatnimi czasy w c# coś dłubałem moje pytanie brzmi jak się najlepiej za to zabrać? Mógłby mnie ktoś nakierować? Póki co znalazłem takie cudo:

 public List<string> getTitles(string url)
        {
            List<string> titles= new List<string>();

            HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();

            foreach (string tytuł in ?)
            {
                titles.Add(tytuł);
            }

            response.Close();

            return titles;
        }

Jednak nie wiem jak wyciągnąć ten tytuł. Też jeśli na danej stronie się skończą a będę potrzebował więcej, będzie mi musiało przejść na następną stronę.

0
  • Pobierasz stronę (jej html), lecz czasem może wymagać to zastosowania jakiegoś narzędzia, bo niektóre strony generują się dynamicznie i nie będziesz miał w ich htmlu tych danych, a wchodząc ręcznie przez przeglądarkę już będą, bo javascript je zaciągnie.

  • Musisz przetworzyć jakoś ten HTML np. zauważyć, że każdy tytuł jest w <div class="tytul>tytuł</div> lub użyć jakiegoś narzędzia typu HTML Agility Pack bodajże

  • Jeżeli strona ma paginację typu www mojastrona.pl/artykuly?page=1 to wystarczy to w pętli zrobić.

0

Dzięki, z tą pętlą jeśli chodzi o strony banalny
.. a jakże genialny pomysł, nie wiem jak mogłem na to nie wpaść. HtmlAgility też fajna paczka nie słyszałem o niej wcześniej ale zadziałało. Tylko mam problem przy naszych polskich literkach typu 'ó' gdzie dostaje zamiast tego ó ktoś wie jak mogę to naprawić?

1 użytkowników online, w tym zalogowanych: 0, gości: 1