Topic Modelle

Download Paper-Vollversion

Im Sinne des Blended-Reading-Ansatzes* (Lemke/Stulpe 2015) ist Text Mining ein modularer Prozess. Dieser setzt sich aus verschiedenen computergestützten Analyseverfahren und von der Forscherin/dem Forscher zu leistenden Interpretationen von Einzeltexten zusammen. Blended-Reading nimmt – was die computergestützten Verfahren anbelangt – eine analytisch-prozedurale Gewichtung vor, die von einfachen, strukturierenden hin zu komplexeren, inhaltlichen Verfahren reicht. Topic Modelle gehören, wie die Kookkurrenzanalysen (eTMV 2), zu den sekundären Operationen des Text Mining. Zwei Analyseleistungen stehen dabei im Vordergrund, einerseits die Exploration (1) und anderseits die Filterung (2) eines bestehenden Textkorpus:

(1) Topic Modelle geben für jedes Dokument eine Wahrscheinlichkeitsverteilung der in ihm enthaltenen Topics an. Mit dieser Information lassen sich Dokumente selektieren, die bestimmte Topics zu einem bestimmten Anteil enthalten. Die Zählung dieser Dokumente, bzw. die Aggregation der in ihnen enthaltenen Wahrscheinlichkeitsmasse für ein Topic lässt sich als Zeitreihe visuell darstellen. Mit Topic Modellen lassen sich latente Sinnzusammenhänge einer Dokumentkollektion sichtbar machen, die als Themen oder Kontexte betrachtet werden können. Zusätzlich können Dokumentkollektionen nach Themen gefiltert und die Präsenz der Themen kann diachron im Korpus als Längsschnitt der Häufigkeiten visualisiert werden. Durch die Nutzung von Topic Modellen ist damit die Exploration von großen Textkorpora möglich, da die einzelnen Subthemen innerhalb eines Diskurses automatisch identifiziert werden.

(2) Die durch das Topic Modell berechneten Themenanteile können auch dazu genutzt werden, bestimmte Themen aus dem Korpus gezielt auszuschließen. Dies ist vor allem dann sinnvoll, wenn durch Doppeldeutigkeiten eine Themenvermischung entstanden ist. Des Weiteren können Topic Modelle in einem bestehenden Korpus dazu genutzt werden, spezifische Subdiskurse zu extrahieren und so Subkorpora* für die weitere Analyse zu erstellen.

Topic Modelle ermöglichen somit die inhaltliche Erschließung und Bereinigung von Korpora für weitere Analyseschritte.

Seiten aus eTMV_3_cover

Ein Doppelklick auf das Cover öffnet das Paper als pdf auf einer separaten Seite.

 

Hinterlasse eine Antwort

Pflichtfelder sind mit * markiert.


Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>