ISBN-13: 9786205058633 / Miękka / 260 str.
Die Größe des Internets ist groß und es ist enorm gewachsen, Suchmaschinen sind die Werkzeuge für die Navigation und Suche auf Webseiten. Suchmaschinen führen Indizes für Webdokumente und bieten Suchmöglichkeiten durch kontinuierliches Herunterladen von Webseiten zur Verarbeitung. Dieser Prozess des Herunterladens von Webseiten wird als Web-Crawling bezeichnet. In diesem Buch wird eine Architektur für einen effektiven migrierenden parallelen Web-Crawling-Ansatz mit domänenspezifischer und inkrementeller Crawling-Strategie vorgeschlagen. Die Hauptvorteile des parallelen Web-Crawlers bestehen darin, dass der Analyseteil des Crawling-Prozesses lokal am Aufenthaltsort der Daten und nicht im Repository der Web-Suchmaschine durchgeführt wird. Dies reduziert die Netzwerklast und den Datenverkehr erheblich, was wiederum die Leistung, Effektivität und Effizienz des Crawling-Prozesses verbessert. Ein weiterer Vorteil der Migration eines parallelen Crawlers ist, dass mit zunehmender Größe des Webs die Parallelisierung eines Crawling-Prozesses notwendig wird, um das Herunterladen von Webseiten in vergleichsweise kürzerer Zeit zu beenden. Domänenspezifisches Crawling wird qualitativ hochwertige Seiten liefern.