Suchtechnologie und Information Retrieval

für Studenten der (Medien-)Informatik

von Christian Herta

Kurs zur Vorlesungen an der Beuth Hochschule Berlin.

Suchwerkzeuge spielen heutzutage die wichtigste Rolle beim Finden relevanter Information in großen Dokumentenbeständen. So ist es ohne Suchportale wie "google", "Yahoo", "MSN", "Ask" oder "weFind" unmöglich bedeutsame Internetseiten zu einem Informationsbedürfnis aus der Fülle der Internetdokumente zu erhalten. Die Grundlage für Suchtechnologien liefert die Wissenschaft Information Retrieval. Diese ist älter als das Internet, hat aber in den letzten Jahren aufgrund des Webs und des stetigen Wachstums an Informationen enorm an Dynamik und Bedeutung gewonnen.
In der Vorlesung wird die Theorie und Praxis der (Web-)Suche vermittelt. In den Übungen wird das Wissen mittels Übungsaufgaben und Programmierbeispielen vertieft. Dabei wird als Programmiersprache Java und entsprechende Open-Source Software (Lucene, Heritrix, Hadoop, UIMA, openNLP etc.) verwendet.

Inhalt der Vorlesung

  1. Einfühung
  2. Grundlagen des Text Retrieval
  3. Text Retrieval mit Lucene
  4. Web-Spidering
  5. Vertikale Suche und Enterprise Search
  6. Verteiltes Information Retrieval
  7. Sprachtechnologie, Computerlinguistische Grundlagen
  8. Text-, Web- und Data-Mining
  9. Federated-, Universal- and Blended-Search
  10. Nutzerführung
  11. Multimedia Suche
  12. Evaluation und Bewertung von IR-Systemen
  13. Social Retrieval: Communities und Suche
  14. Empfehlungssysteme
  15. Mobile Informationssysteme
  16. Semantische Suche und Ontologien - Vortrag im Rahmen des Workshops Corporate Semantic Web an der FU-Berlin; März 2009
  17. Trends und Zukunft der Suche
  18. Softwaretechnische Aspekte, Betrieb etc.
  19. Markt der Suche, Anwendungen

Literatur

siehe Literatur Information Retrieval, Text und Web-Mining

Übungen




Home