Machine learning do wyciągania danych produktów ze stron www

Odpowiedz Nowy wątek
2018-11-01 12:52
Merc
0

Cześć,
Mamy podstronę produktu w (jakimkolwiek) sklepie internetowym. Każdy sklep ma inny kod HTML. Często są jedna podobieństwa, typu: zdjęcia po lewej stronie, nazwa produktu w H1, cena niedaleko obok, opis produktu to parę paragrafów tekstu, warianty kolorystyczne lub rozmiary nad przyciskiem "Add to cart", itp.
Przykłady takich podstron produktów:

Zastanawia mnie następujący problem, czy jest możliwe, aby napisać uczący się program, który po przeanalizowaniu np. 10 tys. takich stron produktów, nauczyłby się pewnych wzorców / stał się inteligentny na tyle, aby umieć wyłuskać dane typu nazwa produktu, opis, zdjęcia, rozmiary/kolory/warianty? Np. używając headless browsery typu Headless Chrome można z użyciem JS ocenić położenie elementów H1, szukać zdjęć produktu (np. w lewej kolumnie wiele zdjęć obok siebie, jako jedne z pierwszych zdjęć na podstronie), cena produktu niedaleko tagu H1, warianty niedaleko add to cart (aczkolwiek to może być raz select, raz URLe do produktów, zupełnie inny HTML).

Dzięki z góry za opinie i ew. rady :)

Pozostało 580 znaków

2018-11-01 23:24
exp7
0
Merc napisał(a):

Cześć,
Mamy podstronę produktu w (jakimkolwiek) sklepie internetowym. Każdy sklep ma inny kod HTML. Często są jedna podobieństwa, typu: zdjęcia po lewej stronie, nazwa produktu w H1, cena niedaleko obok, opis produktu to parę paragrafów tekstu, warianty kolorystyczne lub rozmiary nad przyciskiem "Add to cart", itp.
Przykłady takich podstron produktów:

Zastanawia mnie następujący problem, czy jest możliwe, aby napisać uczący się program, który po przeanalizowaniu np. 10 tys. takich stron produktów, nauczyłby się pewnych wzorców / stał się inteligentny na tyle, aby umieć wyłuskać dane typu nazwa produktu, opis, zdjęcia, rozmiary/kolory/warianty? Np. używając headless browsery typu Headless Chrome można z użyciem JS ocenić położenie elementów H1, szukać zdjęć produktu (np. w lewej kolumnie wiele zdjęć obok siebie, jako jedne z pierwszych zdjęć na podstronie), cena produktu niedaleko tagu H1, warianty niedaleko add to cart (aczkolwiek to może być raz select, raz URLe do produktów, zupełnie inny HTML).

Dzięki z góry za opinie i ew. rady :)

Z całkowitą pewnością jest możliwe;
sam w życiu nie widziałeś nawet 1 tys. takich stron, no a jakoś potrafisz to czytać. :)

Zatem zakoduj ten swój własny mózg w pececie, i będzie gotowe.

Pozostało 580 znaków

2018-11-02 11:08
0

Może część sklepów obskoczyłbyś przez analizę softu, który jest używany do ich realizacji. Z tych 10k sklepów pewnie z 80% bazuje na gotowcach.

Pozostało 580 znaków

Odpowiedz
Liczba odpowiedzi na stronę

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0