Zasada działania programów typu getpocket, czy feedly

0

Zastanawiam się na jakiej zasadzie działają programy/strony typu instapaper, getpocket, feedly... Chodzi mi tu o opcję czytnika, która wyświetla jedynie tekst i zdjęcia ze strony bez CSS i innych zbędnych efektów. Jak rozumiem parsowany jest HTML i z niego wyciągane konkretne dane, ale skąd aplikacja automatycznie wie z którego np. diva ma wyciągnąć tytuł, a z którego tekst artykułu. Może mi ktoś to objaśnić?

0

Feedly na pewno częściowo opiera się o kanały RSS/Atom, nie tylko o odpowiednie przekształcanie HTML.

Poza tym sądzę, że często opierają się na semantyce HTML - np. znaczniki <h2> często są tytułami artykułów, jeżeli mają klasy CSS postaci "article-title" albo "heading-title" to też widać. Podobnie przecież mamy znaczniki <article> albo <div class="article"> i tak dalej. Można przejrzeć np. https://github.com/mozilla/readability

1 użytkowników online, w tym zalogowanych: 0, gości: 1