Information Retrieval, Data- und Textmining, Inhaltserschließung,
Bilddokumentation
Spätestens seitdem die erste indexierende Web-Suchmaschine Altavista im Jahre 1995 an den Start ging, ist Informationsrecherche im Internet alltagstauglich geworden. Mittels Suchmaschinen ist heute jeder an jedem Ort und zu jeder Zeit in der Lage, relevante und größtenteils personalisierte Informationen zu „ergoogeln“ und das in allen medialen Formen – Text, Bild, Karten, Audio, Video etc. Damit Suchanfragen maschinell „verstanden“ werden können, Informationen gefunden werden und nutzergerecht aufbereitet werden können, sind komplexe Algorithmen erforderlich, die für den Nutzer weitgehend unsichtbar ausgeführt werden.
Wie müssen Daten und Informationen beschaffen sein, damit sie wiedergefunden werden? Wie funktionieren Suchmaschinen? Wie können Objekte in Bildern erkannt werden oder wie erkennt ein Programm welches Musikstück gerade gespielt wird? Das sind nur einige Fragestellungen auf die im Themenbereich Information Retrieval eingegangen wird.
Gigantische Datenmengen, riesige Dokumentsammlungen, Webseiten (man schätzt die Zahl der bei Google indexierten Webseiten auf ca. 25 Milliarden) oder Videoplattformen (2013 wurden pro Minute ca. 100 Stunden Videomaterial auf YouTube hochgeladen) bieten völlig neue Möglichkeiten, wie im Bergbau (Informations-)schätze aus einer großen Menge von Daten zu gewinnen. Verfahren zur Analyse, Extraktion und Auswertung von Daten und Texten lernen Sie in den Themengebieten Data- bzw. Textmining kennen.
Stellen Sie sich folgende Situationen vor: Sie suchen Informationen über den Strauß, den größten lebenden Vogel der Erde. Zu Ihrem großen Erstaunen bekommen Sie eine Trefferliste mit Angaben zu den Blumensträußen oder mit einer Biographie vom deutschen Politiker Franz Josef Strauß. Oder Sie brauchen die technischen Daten von einem Fahrstuhl und bekommen keine Information, obwohl Ihre Kollegin alles gefunden hat, weil sie nach „Aufzug“ gesucht hat. In beiden Fällen haben wir mit der sprachlichen Phänomenen zu tun, die Zugang zu den Daten erschweren. Folgende Situation ist Ihnen sicherlich auch bekannt: Sie suchen nach einem bestimmten Thema und finden tausende unnötige Treffer, wo Ihr Suchbegriff in einem anderen Kontext vorkommt. Genau mit diesen Problemfeldern befasst sich Inhaltserschließung. Während des Studiums entwickeln Sie sichere Vorstellungen über die Funktionsweise der natürlichen Sprache sowie über die wesentlichen Sprachphänomene. Sie erlernen Methoden, mit denen Sie einen reibungslosen inhaltlichen Zugang zu Daten schaffen können. Nach dem Studium werden Sie in der Lage sein, diverse Begriffssysteme, die als Instrumente in der Inhaltserschließung benutzt werden, selbst zu entwickeln, und zwar sowohl klassische – Klassifikationen und Thesauri – als auch moderne – Ontologien.
Die Bilddokumentation wird hier beispielhaft als eines unserer Studienangebote zur dokumentarischen Erschließung vorgestellt. Die großen Bilderdatenbanken werden heutzutage nicht nur von Presseagenturen betrieben, viele große und kleine Einrichtungen unterhalten Foto- und audiovisuelle Sammlungen. Wie strukturiert man diese Bestände, wie werden sie aufbereitet, um dem Nutzer einen schnellen, vollständigen und ballastfreien Zugang zu den Bildern zu gewähren? Mit dieser Fragestellung befasst sich die Bilddokumentation. Im Rahmen dieses Kurses reflektieren Sie das Medium „Bild“ und alle Ebenen der Bilderschließung, von formalen Daten über inhaltsdeutende Angaben bis zur Sacherschließung. Sie lernen bestehende Erschließungsmethoden und Erschließungsinstrumente sowie aktuelle textbasierte und visuelle Retrievalsysteme kennen.