Solr + Nutch - mapowanie kilku domen na jedną

0

Witam, nie jestem do końca przekonany czy we właściwym dziale umieszczam ten wątek, ale w końcu Solr i Nutch to java w pełnej krasie :)

Ostatnimi czasy bardzo intensywnie grzebię w tandemie solr + nutch, które mają zastąpić przestarzałego htdig'a. W związku z tym mam prośbę o podpowiedź, naprowadzenie czy pomoc.

Otóż wspomniany htdig pozwalał w łatwy sposób ustawić mapowanie kilku domen na jedną. Konkretnie chodzi o domeny związane z UG (mój pracodawca :P). Jeszcze niedawno głównym adresem było univ.gda.pl, teraz jest to ug.edu.pl, a dodatkowo istnieje jeszcze zewnętrzna domena jednego z wydziałów: wzr.pl = wzr.univ.gda.pl = wzr.ug.edu.pl. Wszystkie strony działają poprawnie i wersje domen są poprawne, ale najwłaściwsza to ta z ug.edu.pl.

Chodzi o to, żeby Nutch i Solr wiedziały, że mieląc adres univ.gda.pl czy ug.edu.pl, mają doczynienia z jedną treścią. Coś w rodzaju duplicate content, którego nie chcę likwidować!!!

Czy istnieje jakiś patch albo wbudowany mechanizm pozwalający wykonac tego rodzaju mapowanie w solr i nutch? Chcę uniknąć sytuacji w której w wynikach wyszukiwania pokazują się te same podstrony, z róznymi domenami, np. http://ug.edu.pl/sklad oraz http://www.univ.gda.pl/sklad. Oba linki działają, ale ten pierwszy jest istotny z punktu widzenia ważności domeny. Chodzi też o to, żeby indeks nie traktował tych samych adresów jako oddzielne.

Niestety nie ma możliwości przekierowania na sztywno całej domeny univ.gda.pl na ug.edu.pl, bo nie wszystko działa tak samo pod oboma adresami. W większości wypadków tak jest, ale jak to często bywa są wyjątki od reguły. Są też stare pliki doc, rtf, pdf, html itp, które mają w treści zaszyte stare linki (z univ.gda.pl) i są indeksowane przez crawler nutch.

Mam nadzieję, że zbytnio nie namieszałem wyjaśniając problem.

Z góry dzięki za pomoc.

Pzdr.
Seba

0

Rozwiązaniem okazał sie moduł "normalize" w etapie parsowania
przez Nutch.

/nutch/conf/regex-normalize.xml

<regex>
  <pattern>(univ\.gda\.pl|ug\.gda\.pl)</pattern>
  <substitution>ug.edu.pl</substitution>
</regex>

1 użytkowników online, w tym zalogowanych: 0, gości: 1