| Websuchmaschinen - Übersicht |
Folgender Beitrag stellt die grundlegende Funktionsweise von Suchmaschinen dar und zeigt aktuelle Entwicklungen in denen es darum geht, maschinelle Algorithmen und das Wissen der bzw. über die Nutzer gewinnbringend miteinander zu kombinieren.Websuchmaschinen sind Systeme, die auf der Verwendung roboterbasierter Verfahren der Dokumentbeschaffung aufsetzen und bezüglich der Inhaltserschließung und der Spezifizierung der Treffermengen auf Methoden des Information Retrieval beruhen. Websuchmaschinen, stellen den dominierenden Typus der Suchdienste im Web dar. Suchmaschinen bestehen im Wesentlichen aus drei Komponenten. Einer Komponente zur Dokumentbeschaffung, einer Komponente zur Inhaltserschließung und Erfassung weiterer struktureller und statistischer Daten sowie einer Komponente, welche die Ergebnismenge und deren Sortierung in Bezug zu den gestellten Suchanfragen determiniert. Die Komponenten werden nachfolgend dargestellt. DokumentbeschaffungDie Dokumentbeschaffung von Suchmaschinen findet primär über Programme, sogenannte Spider oder Crawler statt, die ausgehend von einer vorhandenen URL-Liste rekursiv die Hyperlinks des Web traversieren und die Inhalte von HMTL-Dokumenten und anderen textbasierten Dateiformaten extrahieren. Des Weiteren ist es möglich, URLs manuell anzumelden. Wenig thematisiert wird die Tatsache, dass Suchmaschinen zudem teilweise in der Lage sind, Navigationsprofile von Internetnutzern zu erfassen. Suchmaschinen erreichen eine hohe Abdeckung der im Web vorhanden Inhalte. Die letzten veröffentlichten Angaben der Suchmaschinenbetreiber Yahoo und Google aus dem Jahre 2005 geben eine Indexgröße von rund 20 Milliarden Dokumenten an. Ziel von Suchmaschinen ist es, die Inhalte des Web möglichst vollständig aufzuspüren. Bezogen auf die Dokumentbeschaffung mittels Spider- oder Crawlerprogrammen wäre ein vollständiges Auffinden für den Fall denkbar, dass alle Webinhalte über Links miteinander verbunden und frei zugänglich sind. Letzteres ist oft nicht der Fall, ersteres ist ganz sicher nicht erfüllt. Die Inhalte Login-geschützter Seiten oder Ergebnisse formularbasierter Anfragen sind für die linktraversierenden Spider unzugänglich. D.h. Suchmaschinen erreichen zwar eine hohe Abdeckung, zugleich existiert aber ein Deep oder Invisible Web, auf dessen Inhalte aufgrund von Zugangsbeschränkungen durch Anbieter oder aufgrund technischer Restriktionen der Suchmaschinen nicht zugegriffen werden kann. Aufgrund der hohen Volatilität des Internet – in dem ständig neue Webseiten und andere Objekte publiziert und vorhandene Dokumente/Daten modifiziert oder entfernt werden – ist es zudem erforderlich, die Indizes der Suchmaschinen fortlaufend zu aktualisieren. D.h. die Dokumentbeschaffung durch Suchmaschinenroboter ist ein zyklischer Prozess, darauf angelegt die Veränderungen des Dokumentraums Internet möglichst zeitnah zu erfassen. Neben Crawling-Heuristiken, die darauf abzielen, die Inhalte einer Domain möglichst vollständig zu erfassen, und denen, die das Ziel verfolgen, eine möglichst hohe Zahl von Domains zu erfassen, nutzen Suchmaschinen auch weitere Informationen wie Besuchshäufigkeit bzw. Aktualisierungsfrequenz von Webseiten, um das Verhalten von Spiderprogrammen zu optimieren. Websitebetreiber wiederum verfügen über mehrere Optionen, das Verhalten von Suchmaschinenrobotern zu beeinflussen. Zunächst können Websitebetreiber über Meta-Tags Suchmaschinen Informationen zur Indexierung bereitstellen. Des Weiteren führte Yahoo 2007 mit dem „robots-nocontent“-Tag eine Möglichkeit ein, auch Textinhalte im sichtbaren Bereich einer Webseite von der Indexierung auszuschließen. Seit 2005 kommunizieren die Suchdienstebetreiber Google, Yahoo und Microsoft dass Linkattribut „Nofollow“. Dessen Gebrauch bewirkt, dass derart gekennzeichnete Links bei der Sortierung nicht mehr berücksichtigt werden. Neben diesen granularen Steuerungsmöglichkeiten auf Ebene der einzelnen Seiten existiert mit dem „Robots exclusion standard“ auch eine Konvention, um das Verhalten von Suchmaschinenrobotern auf Domainebene zu spezifizieren. Websitebetreiber können Suchmaschinenrobotern mitteilen, dass ihre Domain bzw. Teilbereiche davon nicht indexiert werden sollen. Die entsprechenden Anweisungen werden in einer Textdatei namens Robots.txt hinterlegt.
2006 einigten sich Google, Yahoo und Microsoft weiterhin auf ein „Standard Sitemap Protokoll“. Sitemaps gestatten es, in Form eines XML-Files, Metainformationen zum letzten Aktualisierungszeitpunkt, zur Aktualisierungsfrequenz und zur Priorität der aufgelisteten URLs einzutragen. Dies erleichtere es Suchmaschinen, Webseiten intelligenter zu indexieren. Google bietet des Weiteren mit den „Webmaster-Tools“ Websitebetreibern die Option, umfangreiche Crawling-Informationen zur Indexierung durch Google zu erhalten. Sitemaps und „Webmaster-Tools“ können als eine Weiterentwicklung der Steuerungsmöglichkeiten durch Meta-Tags und des „Robot Exclusion Standards“ betrachtet werden. Alle genannten Möglichkeiten tragen dazu bei, die Ressourcen der Suchmaschinen zur Dokumentbeschaffung effizienter zu nutzen und Probleme, wie die Mehrfachindexierung gleicher Inhalte oder niedrige Aktualitätsfrequenzen, zu minimieren. Indexierung und Spezifikation der ErgebnismengeIm Information Retrieval bestimmen die Verfahren, die zur Repräsentation der erfassten Wissensobjekte verwendet werden, weitgehend die Optionen der Anfragenbearbeitung bzw. die Möglichkeiten, welche zur Spezifikation und Sortierung der Suchergebnisse zur Verfügung stehen. Deshalb werden nachfolgend beide Bereiche gemeinsam betrachtet. Den Kern der Inhaltserschließung bei Suchmaschinen stellen zunächst die von den Suchmaschinenrobotern erfassten Inhalte der gefundenen Dokumente dar. Dabei werden exakte Schreibweisen erfasst und Groß- und Kleinschreibung sowie Umlaute meist normalisiert. Morphologische und syntaktische Verfahren der Textanalyse, wie z.B. Grund- und Stammformreduktion, Kompositazerlegung oder die Erkennung von Mehrwortbegriffen, finden derzeit meist keine Anwendung. Neben den Stichwörtern werden auch
Diese Art der Volltextindexierung stellt die Grundlage zur Anwendung klassischer termbasierter Abgleichs- und Sortierverfahren dar, die auf der Analyse von Wortvorkommen in Dokumenttext und Metainformation aufsetzen. Die Analyse ausgehender Verweise bildet die Basis linktopologischer Rankingverfahren. Diese aus den Dokumentinhalten extrahierten Informationen werden mit weiteren Faktoren ergänzt. Google spricht derzeit von über 200 „Signalen“, die beim Ranking berücksichtigt werden . Diese lassen sich im Wesentlichen vier zentralen Bereichen zuordnen:
Folgende Abbildung stellt die Faktoren in einer grafischen Übersicht dar. ![]() Neben der Relevanzeinstufung der Dokumente an sich ist die Zusammensetzung bzw. die Vielfältigkeit der jeweiligen Ergebnismenge ein wichtiges Kriterium für ihre weitere Spezifikation der Ergebnismenge. On-Page-FaktorenInsbesondere von Bedeutung sind bezüglich der Terme
Dabei gilt, je öfter Anfrageterme in einem Dokument vorkommen, je dichter sie zueinander bzw. je weiter am Anfang des Dokuments stehen, umso relevanter wird ein Dokument bewertet. Ebenso werden hervorgehobene Terme oder Terme in spezifischen Feldern höher gewichtet. Weitere eher formale Faktoren, z.B. das Entstehungsdatum oder die Änderungsfrequenz, können beispielsweise bei zeitbasierten Anfragekriterien berücksichtigt werden. On-Page-Faktoren stellen den Kern jeder inhaltsbasierten Bewertung von Suchmaschinen dar. Sie werden aber für das Ranking als nicht hinreichend erachtet. Dies hat zunächst zwei Gründe. Erstens das Suchverhalten der Nutzer: Internetnutzer stellen überwiegend kurze Suchanfragen, d.h. Anfragen mit nur wenigen Termen, oftmals auch nur sogenannte Einwort-Anfragen. Suchmaschinen weisen zu derartigen Suchanfragen i.d.R. Tausende bzw. Millionen potenziell relevanter Dokumente nach, von denen die Nutzer dann meist nur wenige Treffer sichten. Der zweite Grund, warum On-Page-Kriterien für sich betrachtet als nicht hinreichend erachtet werden, liegt in dem Missbrauchspotenzial durch Websitebetreiber. So lässt sich z.B. die Häufigkeit von Termen in Webdokumenten sehr einfach manipulieren. Suchmaschinen verwenden zwar schon seit den 1990er Jahren inhaltsbezogene Filter, etwa bezüglich einer maximal tolerierten Wortdichte bzw. der Zahl von Wortwiederholungen, um manipulierte Seiten aus dem Ergebnis auszusortieren bzw. mit einem Rankingmalus zu versehen. Dennoch ist festzuhalten, dass die Anwendung zusätzlicher Rankingfaktoren, welche auch Kriterien außerhalb der Dokumentinhalte berücksichtigen, den Missbrauch bzw. die Manipulation der Suchmaschinen zu Spamzwecken erschwert bzw. erheblich aufwändiger gestaltet. On-Site-FaktorenDie Analyse globaler Faktoren der jeweiligen Domain, auf der sich die Dokumente befinden, stellt einen weiteren wichtigen Faktor zu Bewertung von Suchergebnissen dar. Die Art der verwendeten On-Site-Faktoren und ihre reale Bedeutung sind aber weitgehend unbekannt. D.h. rankingbezogene Aussagen sind gerade in diesem Bereich hochgradig spekulativ. So gibt es z.B. seit mehreren Jahren Diskussionen zu vermuteten Sandbox- oder „trust rank”-Effekten, die zur Folge haben sollen, dass neuen Websites insbesondere für kompetitive Suchanfragen ein Rankingmalus zugeordnet werde. Denkbar ist u.a., dass neben dem Alter der Domain auch Faktoren wie die Art der Domain, ihre Linkpopularität, die thematische Ausrichtung der Gesamtsite, die Gesamtzahl der indexierten Seiten usw. bereits jetzt oder künftig herangezogen werden. Link-FaktorenLink-Faktoren beruhen auf der Analyse der Referenzstrukturen im Web. Die Idee ist, aus diesen Strukturen Kriterien zur Bewertung von Webdokumenten abzuleiten. Grundlage ist die These, dass Links nicht zufällig gesetzt werden, sondern ein Qualitätsurteil, d.h. eine Empfehlung aussprechen. Erstmalige Umsetzung fand dieser Ansatz 1998 in der damals neu entstandenen Suchmaschine Google. Das von Google verwendete Pagerank-Verfahren, ermittelt die Wichtigkeit einzelner Dokumente durch die Analyse der Verweisstrukturen aller indexierten Webseiten. Dabei gilt: Je größer die Zahl eingehender Links auf eine Seite, umso höher der Pagerank. Pagerank ist ein themenunabhängiges Qualitätsmaß und weist in seiner ursprünglichen Form jedem erfassten Objekt einen „Wichtigkeitsfaktor“ zu. Neben der Anzahl der Links fließt auch deren Gewicht in die Berechnung mit ein. Dieses bestimmt sich durch den Pagerank der Webseite, von der der jeweilige Link ausgeht, und wird gleichmäßig zwischen allen ausgehenden Links dieser Seite aufgeteilt. Neben dem Pagerank-Verfahren existieren weitere linktopologische Algorithmen. Das von Kleinberg entwickelte „Hyperlink-Induced Topic Search“ (HITS)-Verfahren berücksichtigt im Unterschied zu Pagerank auch den Kontext von Suchanfragen. Das HITS-Verfahren floss in die Entwicklung der Suchmaschine Teoma mit ein. Linkfaktoren stellen derzeit ein zentrales Kriterium dar, um Suchergebnisse zu bewerten. Dabei ist davon auszugehen, dass die vor rund 10 Jahren dokumentierten Algorithmen mittlerweile vielfältig modifiziert und weiterentwickelt wurden, nicht nur im wissenschaftlichen Bereich, sondern gerade auch im realen Einsatz bei Google und Co. Einen weiteren Aspekt linktopologischer Verfahren stellt die Analyse des Verweistexts ausgehender Verweise dar. Wird dieser dem Inhalt der Objekte zugeschlagen, auf die verwiesen wird, so ist es möglich, diese Objekte auch für Terme nachzuweisen, die gar nicht in ihnen vorkommen. Das ermöglicht u.a. den Nachweis nicht indexierter Dokumente oder auch zunächst nicht-indexierbarer Dokumenttypen (z.B. Bilder), kann aber auch zu inhaltlich verfälschten Suchergebnissen führen. Einerseits werden Linkfaktoren als zentraler Erfolgsfaktor bei der Sortierung von Suchergebnissen betrachtet, andererseits qualitätssteigernde Effekte aber auch stark in Zweifel gezogen. Letzteres beruht auf der Beobachtung, dass Systeme, welche Link-Faktoren nutzen, bei Tests keine besseren Leistungen zeigen als Systeme, die derartige Verfahren nicht verwenden. Hier ist allerdings zu konstatieren, dass diese Tests in Umgebungen durchgeführt wurden, welche webspezifische Bedingungen, z.B. in Bezug auf Spamseiten, nicht vollständig widerspiegeln. So lässt sich argumentieren, dass Linkfaktoren gerade bei kurzen Anfragen, die auf semantischer oder pragmatischer Ebene oft vieldeutig sind, eine Verbesserung der Qualität bewirken, weil sie dazu führen, populäre Seiten höher zu ranken. Des Weiteren erhöhen diese Verfahren, im Vergleich zu Rankingverfahren, die ausschließlich auf On-Page-Faktoren beruhen, den Aufwand für eine erfolgreiche Manipulation von Suchmaschinenrankings in erheblichem Maße, so dass sie gezielt in Richtung Spamreduzierung wirken. Insofern lassen sich für die Anwendung von Linkfaktoren starke Argumente finden. Allerdings ist sehr kritisch zu hinterfragen, inwieweit die grundsätzliche Annahme, auf der Linkfaktoren beruhen, nämlich dass das Setzen eines Links ein Qualitätsmerkmal darstellt, derzeit tatsächlich (noch) valide ist. So lässt sich beobachten, dass Webseiten, welche bereits eine hohe Zahl eingehender Links aufweisen, eine überproportional höhere Wahrscheinlichkeit besitzen, neue Links zu erwerben, als Webseiten, welche eine geringe Zahl eingehender Links aufweisen. D.h. Link-Faktoren benachteiligen unpopuläre Seiten in einem überproportionalen Ausmaß. Dies betrifft insbesondere neue Seiten (Inhalte), die noch wenig Zeit hatten, „Linkpopularität“ aufzubauen. Damit wirken diese Verfahren in Richtung Verstetigung der Suchergebnisse. Noch weitergehend ist zu konstatieren, dass die Anwendung linktopologischer Verfahren durch die Suchmaschinen wiederum einen Rückkoppelungseffekt auf die Linkstruktur des Web selbst nach sich zieht. Zunächst führt die Bevorzugung populärer Inhalte in den Suchergebnissen dazu, dass sich deren Sichtbarkeit erhöht, was die soeben darstellten Verstetigungseffekte noch weiter verstärkt. Darüber hinaus beeinflusst das Wissen um die Verwendung von Linkfaktoren durch Suchmaschinen bei Websitebetreibern die Motivation bezüglich des Setzens von Links. Dadurch, dass eine hohe Zahl eingehender Links sich positiv auf die Sichtbarkeit des eigenen Webangebots auswirkt, bestehen starke Anreize, Links aktiv „einzuwerben“. Das ist ein qualitativer Effekt, der die Linkstruktur des Web insgesamt beeinflusst. Dass diese mittlerweile auch in hohem Maße direkt von Marketinginteressen (mit)bestimmt wird, zeigt sich u.a. daran, dass Links mittlerweile auch ein kommerzielles Gut geworden sind, das oft auch käuflich erworben werden kann. Die Auswirkungen dieser Effekte auf die Qualität von Linkfaktoren und das Internet insgesamt sind weitgehend unbekannt. Zumindest aus Sicht des Suchmaschinenbetreibers Google stellen kommerziell erworbene Links, die das Ziel verfolgen, die Linkpopularität zu erhöhen, ein Problem dar. Eigenschaften und Verhalten der BenutzerDie Eigenschaften und das Verhalten der Nutzer beeinflussen in vielfältiger Weise die Spezifikation und Reihenfolge der ausgelieferten Suchergebnisse. Zunächst sind dabei individuelle Eigenschaften von Bedeutung. Derartige Eigenschaften lassen sich zunächst über die IP-Adresse des verwendeten Rechners, durch im Browser (z.B. über Cookies) oder auf dem Server gespeicherte Informationen (Sessions) sowie durch eine Authentifizierung über einen Login ermitteln. Darüber hinaus ist es Suchmaschinen aber auch möglich, aggregierte Interaktionsdaten einer Vielzahl von Nutzern zu berücksichtigen. Auf individueller Ebene kann zunächst über die jeweilige IP-Adresse eine geografische Zuordnung vorgenommen werden. Damit lässt sich beispielsweise die vom Nutzer vermutlich verwendete Sprache ermitteln und bei der Ergebnisausgabe berücksichtigen. Des Weiteren ist es möglich, bei Suchanfragen mit einem geografischen Bezug – etwa der Anfrage „Umzugservices“ – Anbieter, die aufgrund ihrer geografischen Zuordnung „nahe“ liegen, zu bevorzugen . Außerdem erleichtert eine geografische Zuordnung auch die Umsetzung rechtlicher Regelungen bezüglich der Auslieferung von Inhalten (Zensur). Neben der Erfassung der zugreifbaren Daten der jeweils verwendeten Rechner können auch Nutzerprofile verwendet werden, um die Suchergebnisse anzupassen. Hier lässt sich zwischen einer expliziten und einer impliziten Erfassung derartiger Daten differenzieren. Einerseits können Nutzer explizit Präferenzen hinsichtlich der Eingrenzung von Suchergebnissen (z.B. Sprachraum) oder der Darstellung von Ergebnissen (Trefferanzahl) usw. angeben, andererseits ist es möglich, das Verhalten der Nutzer implizit zu analysieren und auf dieser Basis Suchergebnisse zu modifizieren. Das bekannteste Beispiel einer derartigen Personalisierung stellt derzeit das Webprotokoll von Google dar. Es beruht auf der Aufzeichnung des Such- und Surfverhaltens von authentifizierten Google-Nutzern. Im Webprotokoll werden Suchanfragen und selektierte Ergebnisse festgehalten sowie das Surfverhalten im Web über die Google-Toolbar – sofern vorhanden und aktiviert – erfasst. Diese Daten werden von Google genutzt, um Suchergebnisse zu personalisieren, d.h. einen Teil der Ergebnismenge neu zu sortieren.
Derartig weitreichende Personalisierungsoptionen werden einerseits als wichtiger Schlüssel zur Verbesserung der Internetsuche betrachtet, auf der anderen Seite werden datenschutzrechtliche Aspekte thematisiert. Nach wie vor bleibt unklar, ob und inwieweit sich die implizite Erfassung von Nutzerdaten über Dienste wie Googles Webprotokoll dauerhaft durchsetzen oder aufgrund der Gefahr der Preisgabe sensibler Daten nicht angenommen wird. Neben der expliziten und impliziten Erfassung der Präferenzen der Nutzer auf individueller Ebene wird der aggregierten Analyse des Verhaltens einer Vielzahl bzw. aller Nutzer hohes Potenzial für die Ergebnisspezifikation und Sortierung von Suchergebnissen zugeschrieben. So beruhen z.B. die oben genannten Empfehlungsdienste Googles auf der Analyse des Such- und Surfverhaltens vieler Google-Nutzer. Hier werden nach dem Prinzip des kollaborativen Filterns Interaktionsdaten aggregiert und daraus Empfehlungen abgeleitet. Über Toolbars oder andere Webanalyse-Tools ist es vielen Suchdiensten darüber hinaus möglich, auch das globale Navigations- bzw. Browsingverhalten einer Vielzahl von Nutzern zu erfassen. Insbesondere Google ist durch die hohe Verbreitung seiner Toolbar und durch weitere Dienste wie dem kostenlosen Analytics bestens gerüstet, derartige globale Strukturmuster des Internet für die Ergebnissortierung anzuwenden. Inwieweit diese Daten derzeit genutzt werden, bleibt weitgehend spekulativ. Nicht spekulativ sind hingegen die seit wenigen Jahren existierenden sogenannten „Custom Search Engine-Dienste“, die es Nutzern auf individueller oder kollaborativer Ebene ermöglichen, eigene Suchmaschinen zu definieren. Im Prinzip der bereits oben erwähnten Suchraumeinschränkung ähnlich, sind diese Dienste wesentlich mächtiger und gestatten es auf der Basis von auf der jeweiligen Suchmaschine aufsetzenden, selbst spezifizierten Dokumentraumsubsets, eigene Suchdienste zu kreieren und diese anderen Nutzern zur Verfügung zu stellen. Beispiele für solche spezifizierbaren Suchmaschinen stellen „MSN-Suchmakros“ und „Google Custom Search Engines“ dar. Obwohl es derzeit keine direkte Verbindung bzw. Schnittstelle zwischen den „Custom Search Engine-Diensten“ und den jeweiligen Suchportalen bzw. Standardzugängen bei Google und Microsoft gibt, können diese Dienste als Umsetzung von Personalisierungs- bzw. Social Search-Ansätzen begriffen werden. Zum einen gestatten sie auf der Nutzerseite weitreichende Personalisierungsoptionen, zum anderen wird durch die Nutzeraktivitäten eine Vielzahl von Daten generiert, die von den Suchmaschinen zur Verbesserung der Erschließung und der Spezifikation von Ergebnismengen verwendet werden können. So sprechen die Nutzer bzw. die Gestalter von „Custom Search Engine-Diensten“ hinsichtlich der spezifizierten URLs zunächst ein positives Qualitätsurteil aus. Weitergehend wird auch eine inhaltliche Zuordnung zum Thema der jeweiligen Sub-Suchmaschine vorgenommen. Damit wird deutlich, dass Suchmaschinen zunehmend Dienste und Optionen bereitstellen, in denen Nutzer ihr Wissen einbringen und Dokumente auf unterschiedliche Arten inhaltlich und qualitativ kennzeichnen können. Die Idee bzw. der Ansatz, menschliches Wissen mit maschinellen Algorithmen gewinnbringend zu kombinieren, kennzeichnet damit den derzeit wichtigsten Entwicklungstrend bei Suchmaschinen und lässt für die nahe und mittlere Zukunft erhebliche Verbesserungspotenziale für das Web Information Retrieval erhoffen. Unmittelbaren und wohl prägnantesten Ausdruck findet dieser Trend derzeit in Diensten wie Wikia Search. Wikia Search, eine Initiative des Wikipedia-Gründers Jimmy Wales, setzt auf frei zugänglichen Suchmaschinentechnologien auf und intendiert durch menschliche Urteile über die Qualität von maschinellen Suchergebnissen ein besseres Ranking zu erreichen. Die Suche im Web soll damit revolutioniert werden.
Schließlich ist in Wikia Search ein soziales Netzwerk integriert. Melden sich Nutzer in diesem sozialen Netzwerk an, können sie nicht nur soziale Kontakte mit anderen Teilnehmern knüpfen, sondern u.a. auch ein Interessenprofil definieren. Entspricht eine Suchanfrage eines Wiki-Nutzers derartigen Profileinträgen, so werden neben den Dokumenttreffern auch die entsprechenden Teilnehmer des Wikia-Netzwerk zurückgeliefert (vergleiche auch die obenstehende Abbildung). Auf diese Weise führt Wikia Search die bereits in Social Tagging Communities implizit vorhandenen Möglichkeiten der Expertensuche weiter und setzt diese direkt um. Aufsetzend auf den bis hierhin beschriebenen Komponenten ist des Weiteren geplant, Nutzern eine direkte Möglichkeit zur Bewertung der Güte von Suchergebnissen zur Verfügung zu stellen. ZusammenfassungZusammenfassend bleibt festzuhalten, dass sich hinsichtlich der Arbeits- und Funktionsweise von Suchmaschinen ein komplexes Bild ergibt. Ab Mitte der 1990er Jahre in Form einfacher Verfahren gestartet, die zunächst (Teile der) Volltexte der erfassten Webseiten invertierten und mit Hilfe klassischer Retrievaltechniken die auf Termokurrenzen aufsetzen Ergebnisse sortierten, entwickelten sie sich kontinuierlich weiter bis zu den heute deutlich komplexer arbeitenden und leistungsfähigeren Systemen. Neben der fortlaufenden Optimierung bestehender Verfahren sind insbesondere ab Ende der 1990er Jahre die Anwendung von Linkfaktoren sowie die zunehmende Nutzung nutzergenerierter oder nutzerbezogener Daten als wichtige Entwicklungsschritte zu kennzeichnen Anhand neuer Google-Dienste und der Wikia Search lassen sich weitergehende Entwicklungstendenzen verdeutlichen, die aufzeigen, dass auch bei algorithmisch arbeitenden Websuchmaschinen in zunehmendem Maße das Wissen der und das Wissen über die Nutzer zur Verbesserung des Web Information Retrieval genutzt wird. Mit der Wikia Search kann bereits derzeit eine Entwicklungslinie ausgemacht werden, in der intellektuelles und automatisches Retrieval miteinander verschmelzen. |

Folgender Beitrag stellt die grundlegende Funktionsweise von Suchmaschinen dar und zeigt aktuelle Entwicklungen in denen es darum geht, maschinelle Algorithmen und das Wissen der bzw. über die Nutzer gewinnbringend miteinander zu kombinieren.
Nebenstehende Abbildung zeigt ein Beispiel für die Website xyz.com, in der der Websitebetreiber für alle Roboter („User-agent: *“) spezifiziert, dass die Unterverzeichnisse „Templates“ und „CGI“ nicht indexiert werden sollen. 
Nebenstehende Abbildung zeigt die Benutzerschnittstelle des Webprotokolls.
Nebenstehende Abbildung zeigt die Oberfläche von WikiaSearch. Obwohl Wikia Search ein sehr ambitioniertes Projekt ist, wurde seine Qualität nach dem Start im Januar 2008 überwiegend negativ beurteilt. Dennoch gibt dieser Suchdienst einen Ausblick darauf, wie weitreichend maschinelle Verfahren und editoriale Komponenten bzw. der direkte Input von Nutzern künftig miteinander verwoben werden können. Grundlage der Wikia Search bilden Suchmaschinenergebnisse, die auf Basis der in diesem Kapitel bereits skizzierten Algorithmen generiert werden. Nutzer können in einer sogenannten „Whitelist“, eine Liste, in der Webseiten als Startpunkte für die Spiderprogramme eingetragen sind, Ergänzungen vornehmen. Des Weiteren ist es möglich, mit Hilfe eines integrierten Wikis sogenannte „Mini-Artikel“ zu Suchanfragen zu verfassen, die zusätzliche Informationen zu Suchanfragen liefern und etwa mehrdeutige Begriffe („Java“) disambiguieren.