|
Crawler
Man stelle sich ein Buch ohne Index vor, nun versucht man in diesem Buch eine Information zu finden.
Dokumente im World Wide Web zu finden ist ebenso schwierig. Um von einem Dokument zu einem anderen zu
gelangen gibt es sogenannte Links die auf das gewünschte Dokument verweisen. Auf einer kleinen Internetpräsenz
stellt dies kein großes Problem dar, aber das Internet besteht aus Millionen von Websites.
Um nun ein bestimmtes Dokument zu finden oder Dokumente zu finden in denen spezielle Keywords
vorkommen, benutzt man Crawler.
Crawler sind so aufgebaut das sie schnell die nötigen Quellen finden indem sie einen Index vom Web verwalten.
Diesen Index kann dann der Internet Nutzer in Form einer Suchanfrage durchsuchen. Da der Inhalt des World
Wide Webs aber ständig wechselt besteht ein Crawler aus einer zweiten Komponente, welche sich bei bedarf
automatisch durch das Internet bewegt. Deswegen bezeichnet man einen Web Crawler auch als einen Web
Robot. Der Robot greift sequentiell das heißt nacheinander auf Dokumente einer Internetpräsenz zu und trifft
dann lokal eine Entscheidung über die weitere Vorgehensweise, dabei nutzt der Crawler die Struktur die das
Web Funktionstüchtig macht nämlich Clients die auf Server zugreifen.
|