wyciąganie danych ze strony html --> xml(?)

Odpowiedz Nowy wątek
2017-05-03 17:14
0

Dzień dobry , po ciężkich poszukiwaniach i grzebaniu w dokumentacji udało mi się ściągnąć stronę internetową przy wykorzystaniu cUrl :).

Teraz pytanie ..ściągnąłem stronę kantoru i chciał bym wyciągnąć z tego co mam jakieś informacje.. Co winienem zrobić ?

Pomyślałem o dwóch sposobach :

  1. Wyrazenia regularne,
    2.XML.

Ale nigdy nie używałem xml-a ,i nie wiem jak to ugryźć :(.

Pozostało 580 znaków

2017-05-03 17:17

Wyrażenia regularne służą, jak brzmi nazwa, do parsowania języków regularnych - HTML takim nie jest.
Wykorzystaj dedykowany parser do HTMLa.


edytowany 1x, ostatnio: Patryk27, 2017-05-03 17:17

Pozostało 580 znaków

2017-05-03 17:25
0

Pod tym linkiem :
https://blog.laplante.io/2014/11/parsing-html-c-revisited/

Ktoś używa libXML2 - to popularne rozwiązanie ?Czy to bardziej skomplikowane ??

Pozostało 580 znaków

2017-05-03 17:42
0

Ktoś używa libXML2 - to popularne rozwiązanie ?

screenshot-20170503174201.png

Czy to bardziej skomplikowane ??

Przecież masz załączony przykład kodu, sam musisz ocenić jego stopień trudności.


Pozostało 580 znaków

2017-05-03 17:43
0

ok ,dzięki .

Pozostało 580 znaków

2017-05-06 23:45
0

Hej hej .. Jestem już na etapie pobierania kodu strony i przekierowanie go do pliku ..:p Ale nie mogę się kompletnie połapać w bibliotece libXML2.. przeglądałem stronę dokumentacji ..ale .. kurcze no nie mogę sie tam odnaleźć :P czy znacie może coś ..lepszego ?

Pozostało 580 znaków

2017-05-07 00:12
0

Jakie masz środowisko? (system + IDE)


Pozostało 580 znaków

2017-05-07 16:28
0

Windows 7 64bity w wersji pro, najwygodniej idzie z code-blocka,ale mam również MVS 2017 oraz.Clion ale w wersji próbnej.

Pozostało 580 znaków

2017-05-09 16:22
0

Hej ,

Próbuję podpiąć libXML2 do Code Blocks, ale gdy dodaje dyrektywę #include <libxml/HTMLparser> przekierowuje mnie do innego pliku o nazwie encoding.h .po czym w oknie debuggera pliku encoding.h dostaje informacje "no such file or directory" o dźwięcznej nazwie "**iconv.

Czy ktoś uporał się z tego typu problemem ?
[hr]

Okej ,już rozgryzłem ..:). Wystarczyło ściągnąć iconv.h i podpiąć do code blocka

edytowany 1x, ostatnio: pain368, 2017-05-09 17:00

Pozostało 580 znaków

2017-05-11 19:16
0

Cześć ponownie ,

Piszę ponieważ błądzę .. Program pobiera stronę ,ale nijak wiem jak się zabrać za wybieranie danych .. widzę że biblioteka libXml jest dla mnie bardzo trudna do opanowania ,ale też nie jestem do końca pewien czy na razie chce utrudniać sobie życie formatem xml, o którym nie mam bladego pojęcia.

Stąd nasuwa się pytanie:

  1. Czy jest możliwe abym wyciągnął dane z kodu html ,ale bez przekształcania pliku w format xml,a wynik był by wyświetlany w oknie konsoli?

Na html nie jest mi obcy ,a wiem że kod który chce zdobyć to tylko tabela ..nawet nie generowana dynamicznie
Macie jakieś konstruktywne rady ?

IDE: Code::Blocks 16, Microsoft Visual studio 2017 , Clion (demo)
System: Windows 7 x64

Pozostało 580 znaków

Odpowiedz
Liczba odpowiedzi na stronę

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0