Publisher's Synopsis
Im Bereich des Information Retrievals gewinnt der Forschungsbereich der inhaltsbasierten Suche auf strukturieren bzw. multimedialen Dokumenten, insbesondere wegen dem stetig steigenden Interesse an XML, zunehmend an Bedeutung. Im Rahmen dieser Arbeit wird ein neues Konzept mit dem Namen IRStream vorgestellt, welches die Basis fur die Entwicklung von Retrievalsystemen fur die inhaltsbasierte Suche auf strukturierten multimedialen Dokumenten bildet. IRStream definiert einen Baukasten von aufeinander abgestimmten Bausteinen, die jeweils fest vordefinierte Aufgaben aus dem Bereich der Anfragebearbeitung, wie beispielsweise das Generieren initialer Rankinglisten oder das Kombinieren von Rankinglisten, ubernehmen. Im Vergleich zu anderen IR-Systemen oder Datenbank-gestutzten Suchsystemen wird mit IRStream ein vollig neues Konzept fur die Verarbeitung von Rankinglisten eingefuhrt und formal definiert. Hierbei handelt es sich um die sogenannte Stream-orientierte Anfragebearbeitung von inhaltsbasierten Suchanfragen, die sich von einer mengenorientierten Anfragebearbeitung dadurch unterscheidet, Suchergebnisse als Strome aufzufassen, die inkrementell ausgelesen und weiterverarbeitet werden. Der entscheidende Vorteil dieses Konzepts ist, dass, im Gegensatz zur mengenorientierten Verarbeitung von Suchergebnissen, bei der Stream-orientierten Anfrageverarbeitung insbesondere sogenannte Top-k-Anfragen deutlich effizienter verarbeitet werden konnen. Alle von IRStream bereitgestellten Bausteine zur Verarbeitung von Streams arbeiten inkrementell und konnen fast beliebig miteinander kombiniert werden. Hierbei reicht schon eine kleine Menge unterschiedlicher Typen von Bausteinen aus, um auch komplexe inhaltsbasierte Suchanfragen zu ermoglichen. Suchanfragen konnen nun, ahnlich wie bei einem Legobaukasten, durch Kombination verschiedener Bausteine zusammengestellt werden, ohne das Vorkenntnisse in Anfragesprachen, wie SQL oder OQL, notwendig waren. Diese Arbeit umfasst dabei nicht nur die Konzeption fur die Entwicklung neuer IR-Systeme, vielmehr wurde die Tragfahigkeit des IRStream-Konzepts anhand einer prototypischen Umsetzung von IRStream, der IRStream Retrieval-Engine, untersucht. Um einen Prototypen basierend auf IRStream zu entwickeln, der den heutigen Anforderungen an ein IR-System entspricht, werden im Rahmen dieser Arbeit zuerst die Anforderungen spezifiziert, die ein IR-System nach Meinung des Autors heutzutage erfullen sollte. Mehr noch wird der aktuelle Ist-Zustand heutiger IR-Systeme betrachtet und dabei auch aufgezeigt, welche Techniken bei der inhaltsbasierten Suche derzeit typischerweise zum Einsatz kommen. Im Weiteren wird aber nicht nur der Ist-Zustand von IR-Systemen naher betrachtet, sondern auch untersucht, welche Moglichkeiten heutige Datenbankmanagementsysteme fur die inhaltsbasierte Suche anbieten. Hierbei ergibt sich, dass Datenbankmanagementsysteme wie Oracle oder DB2 zwar schon rudimentare Funktionalitaten fur die inhaltsbasierte Suche anbieten, diese aber keinesfalls als ausreichend zur Realisierung umfassender Retrievalanwendungen erscheinen. Es konnte aufgezeigt werden, dass heutige DBMS insbesondere die Durchfuhrung von Top-k-Anfragen noch nicht ausreichend effizient unterstutzen. Dies liegt zum einen an der mengenorientierten Arbeitsweise der DBMS sowie der fehlenden Integration von geeigneten Indexstrukturen, die eine effiziente Durchfuhrung von Top-k-Anfragen erlauben. Um die Tragfahigkeit des IRStream-Konzepts zu untermauern, wird die IRStream Retrieval- Engine zahlreichen Evaluierungen unterzogen, in denen sowohl das Laufzeitverhalten als auch der Ressourcenbedarf der einzelnen Bausteine untersucht wird. Neben diesen rein technischen Eigenschaften wird aber auch die Qualitat der von der IRStream Retrieval-Engine erzeugten Suchergebnisse evaluiert. Hierzu wurde die IRStream Retrieval-Engine im Rahmen der Evaluierungsinitiative INEX (Initiative for the Evaluation of XML Retrieval) als Retrievalsystem fur XML-Dokumente eingesetzt und mit anderen IR-Systemen verglichen. Dabei zeigte sich, dass die IRStream Retrieval-Engine, insbesondere im Bereich der strukturbasierten Suche, gute Ergebnisse liefert und durchaus konkurrenzfahig im Vergleich zu anderen IR-Systemen ist.