Cześć,
Mamy podstronę produktu w (jakimkolwiek) sklepie internetowym. Każdy sklep ma inny kod HTML. Często są jedna podobieństwa, typu: zdjęcia po lewej stronie, nazwa produktu w H1, cena niedaleko obok, opis produktu to parę paragrafów tekstu, warianty kolorystyczne lub rozmiary nad przyciskiem "Add to cart", itp.
Przykłady takich podstron produktów:
- https://www.adidas.pl/buty-crazytrain-lt/DA8689.html?pr=home_rr&slot=1
- https://www.nike.com/t/air-zoom-pegasus-35-shield-mens-running-shoe-qFlJD3
Zastanawia mnie następujący problem, czy jest możliwe, aby napisać uczący się program, który po przeanalizowaniu np. 10 tys. takich stron produktów, nauczyłby się pewnych wzorców / stał się inteligentny na tyle, aby umieć wyłuskać dane typu nazwa produktu, opis, zdjęcia, rozmiary/kolory/warianty? Np. używając headless browsery typu Headless Chrome można z użyciem JS ocenić położenie elementów H1, szukać zdjęć produktu (np. w lewej kolumnie wiele zdjęć obok siebie, jako jedne z pierwszych zdjęć na podstronie), cena produktu niedaleko tagu H1, warianty niedaleko add to cart (aczkolwiek to może być raz select, raz URLe do produktów, zupełnie inny HTML).
Dzięki z góry za opinie i ew. rady :)