Parsery ogłoszeń

Logo PHP7

Powodem stworzenia tego wpisu na blogu jest duża ilość zapytań od klientów dotyczących tego czy mógłbym stworzyć skrypt pobierający ogłoszenia z innej strony www.
Poniżej przedstawiam kilka możliwości na pobieranie danych z innych stron www.

Kanał RSS (FEED)

Chyba najłatwiejszym sposobem pobierania danych z innej strony jest skorzystanie z kanału RSS (feed) danej witryny. Blogi internetowe i serwisy informacyjne często udostępniają taki kanał – zobacz np. https://blog.wyremski.pl/feed/ Służy on do wyświetlania ostatnich artykułów z danej strony. Strony z ogłoszeniami niestety zazwyczaj nie mają takiego kanału, a nawet jeśli mają i są tam linki do ogłoszeń to tylko do ich niewielkiej liczby i wyświetlają tylko podstawowe informacje.

API

Drugie rozwiązanie to korzystanie z API danej strony. W tym przypadku dany serwis musi posiadać całe zaplecze do API. Takie coś udostępnia np. Allegro: https://allegro.pl/webapi
Niestety większość serwisów ogłoszeniowych nie udostępnia swojego API – i nie ma się co dziwić, budowa tego jest czasochłonna, poza tym nie chcą swoich danych udostępniać konkurencji:)

Programy do eksportu ofert

Istnieją gotowe oprogramowania służące do eksportu ofert na wiele portali jednocześnie. Klient dodaje ogłoszenie w jednym miejscu, a program eksportuje je na wiele portali. Przykładowe programy to: Akol, Asari lub Oferty.net
Istnieje możliwość integracji takich programów z moimi skryptami ogłoszeniowymi.

Parsery

Czwarte rozwiązanie to parser ogłoszeń z danej strony www.

Zacznijmy od tego czym jest parser
Zgodnie z definicją jest to program interpretujący dane wejściowe i dzielący tak, żeby były zrozumiałe dla następnych w kolejności mechanizmów przetwarzania.
W praktyce w tej sytuacji polega to na czytaniu kodu HTML danej strony internetowej, a następnie wydzieleniu z niej konkretnych informacji, które moglibyśmy wykorzystać. W przypadku stron z ogłoszeniami są to zazwyczaj: tytuł, opis, nazwa kategorii, typu, zdjęcia, adres email ogłoszeniodawcy.

Niestety parsery mają szereg wad:

  • Jako że praktycznie każda strona z ogłoszeniami jest zbudowana w inny sposób nie da się zrobić uniwersalnego parsera dla wszystkich stron.
  • Jeśli właściciel strony wprowadzi na niej modyfikacje parser może przestać działać.
  • Pobieranie ogłoszeń i treści z innej strony może być niezgodne z jej regulaminem.
  • Serwer może posiadać zabezpieczenia przed parsowaniem jak np. ograniczanie liczby zapytań z danego adresu IP. W skrajnych wypadkach mogą zablokować adres IP, z którego będzie korzystał parser.
  • Na stronach z ogłoszeniami często nie ma adresów email ogłoszeniodawców, a numery telefonów są ukryte. W związku z tym tych danych nie da się pobrać. Zamieszczenie takich ogłoszeń w naszym serwisie nie ma sensu, bo nie będzie możliwy kontakt z ogłoszeniodawcą.
  • Dany ogłoszeniodawca może być niezadowolony widząc swoje ogłoszenie na zupełnie innej stronie www. Poza tym nie ma wtedy możliwości go usunąć gdy przestanie być nieaktualne.

Dlatego też nie tworzę parserów do stron z ogłoszeniami.

Przy okazji: pewnego rodzaju parser został wykorzystany w skrypcie typu demoty do pobierania obrazków z innych stron. Skrypt wyszukuje wszystkie tagi z obrazkami na danej stronie, sprawdza wielkość obrazków (czy nie są za małe), a następnie kopiuje na serwer ze skryptem i dodaje do bazy. Niestety to rozwiązanie ma ten minus, że skrypt może dodawać do bazy demotów reklamy graficzne, które spełniają dane kryterium wielkości.

Jeśli znasz jakieś inne metody na pobranie ogłoszeń z innych stron zachęcam do podzielenia się nimi w komentarzu:)

Ta strona używa ciasteczek (cookies), dzięki którym nasz serwis może działać lepiej. Więcej informacji

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close