Powodem stworzenia tego wpisu na blogu jest duża ilość zapytań od klientów dotyczących tego czy mógłbym stworzyć skrypt pobierający ogłoszenia z innej strony www.
Poniżej przedstawiam kilka możliwości na pobieranie danych z innych stron www.
Kanał RSS (FEED)
Chyba najłatwiejszym sposobem pobierania danych z innej strony jest skorzystanie z kanału RSS (feed) danej witryny. Blogi internetowe i serwisy informacyjne często udostępniają taki kanał – zobacz np. https://blog.wyremski.pl/feed/
Służy on do wyświetlania ostatnich artykułów z danej strony. Strony z ogłoszeniami niestety zazwyczaj nie mają takiego kanału, a nawet jeśli mają i są tam linki do ogłoszeń to tylko do ich niewielkiej liczby i wyświetlają tylko podstawowe informacje.
API
Drugie rozwiązanie to korzystanie z API danej strony. W tym przypadku dany serwis musi posiadać całe zaplecze do API. Takie coś udostępnia np. Allegro: https://allegro.pl/webapi
Niestety większość serwisów ogłoszeniowych nie udostępnia swojego API – i nie ma się co dziwić, budowa tego jest czasochłonna, poza tym nie chcą swoich danych udostępniać konkurencji:)
Programy do eksportu ofert
Istnieją gotowe oprogramowania służące do eksportu ofert na wiele portali jednocześnie. Klient dodaje ogłoszenie w jednym miejscu, a program eksportuje je na wiele portali. Przykładowe programy to: Akol, Asari lub Oferty.net
Istnieje możliwość integracji takich programów z moimi skryptami ogłoszeniowymi.
Import z programów partnerskich
Istnieją programy partnerskie (sieci afiliacyjne) które udostępniają listy produktów z różnych sklepów wraz z linkami afiliacyjnymi. Jeśli nasz klient kliknie na dany link i coś kupi w sklepie to dostaniemy z tego prowizję. Listę produktów możemy wykorzystać do zaimportowania jako produkty w naszym sklepie. W ten sposób możemy zdobyć tysiące ogłoszeń w krótkim czasie.
Parsery
Ostatnie rozwiązanie to parser ogłoszeń z danej strony www.
Zacznijmy od tego czym jest parser.
Zgodnie z definicją jest to program interpretujący dane wejściowe i dzielący tak, żeby były zrozumiałe dla następnych w kolejności mechanizmów przetwarzania.
W praktyce w tej sytuacji polega to na czytaniu kodu HTML danej strony internetowej, a następnie wydzieleniu z niej konkretnych informacji, które moglibyśmy wykorzystać. W przypadku stron z ogłoszeniami są to zazwyczaj: tytuł, opis, nazwa kategorii, typu, zdjęcia, adres email ogłoszeniodawcy.
Niestety parsery mają szereg wad:
- Jako że praktycznie każda strona z ogłoszeniami jest zbudowana w inny sposób nie da się zrobić uniwersalnego parsera dla wszystkich stron.
- Jeśli właściciel strony wprowadzi na niej modyfikacje parser może przestać działać.
- Pobieranie ogłoszeń i treści z innej strony może być niezgodne z jej regulaminem.
- Serwer może posiadać zabezpieczenia przed parsowaniem jak np. ograniczanie liczby zapytań z danego adresu IP. W skrajnych wypadkach mogą zablokować adres IP, z którego będzie korzystał parser.
- Na stronach z ogłoszeniami często nie ma adresów email ogłoszeniodawców, a numery telefonów są ukryte. W związku z tym tych danych nie da się pobrać. Zamieszczenie takich ogłoszeń w naszym serwisie nie ma sensu, bo nie będzie możliwy kontakt z ogłoszeniodawcą.
- Dany ogłoszeniodawca może być niezadowolony widząc swoje ogłoszenie na zupełnie innej stronie www. Poza tym nie ma wtedy możliwości go usunąć gdy przestanie być nieaktualne.
- Google może nałożyć karę na domenę za duplicate content – za skopiowanie zawartości z innej strony www, przez co strona będzie się gorzej pozycjonować.
Dlatego też nie tworzę parserów do stron z ogłoszeniami.
Przy okazji: pewnego rodzaju parser został wykorzystany w skrypcie typu demoty do pobierania obrazków z innych stron. Skrypt wyszukuje wszystkie tagi z obrazkami na danej stronie, sprawdza wielkość obrazków (czy nie są za małe), a następnie kopiuje na serwer ze skryptem i dodaje do bazy. Niestety to rozwiązanie ma ten minus, że skrypt może dodawać do bazy demotów reklamy graficzne, które spełniają dane kryterium wielkości.
Jeśli znasz jakieś inne metody na pobranie ogłoszeń z innych stron zachęcam do podzielenia się nimi w komentarzu:)