The Computational Case against Computational Literary Studies

Based on the paper by Ass. Prof. Dr. Nan Z. Da

Jun.-Prof. Dr. Mark Hall

Sommersemester 2019

Photo of a book
https://www.flickr.com/photos/arenamontanus/5743319146/
Photo of a stack of books
https://www.flickr.com/photos/themarmot/14169669030/
Photo of a library
https://www.flickr.com/photos/56283488@N06/38339555742/

Wir lassen den Computer lesen

Computational Literary Studies (CLS)

"Distant Reading"

Grundkonzepte

Datenmodell

n-gram

Das Pferd frisst keinen Gurkensalat

1-gram

  • Das
  • Pferd
  • frisst
  • keinen
  • Gurkensalat

2-gram

  • Das Pferd
  • Pferd frisst
  • frisst keinen
  • keinen Gurkensalat

3-gram

  • Das Pferd isst
  • Pferd frisst keinen
  • frisst keinen Gurkensalat

Analysemethode

  • Wie oft kommt X vor?
  • Wie oft kommt X zusammen mit Y vor?

Hypothesen

  • Worum geht es im Text?
  • Wie oft kommt X in Y vor?
  • Wieviel Einfluss hat X auf Y?
  • Kann X als Y klassifiziert werden?
  • Ist Konzept X konstant?
  • Wer hat X geschrieben?

Worum geht es im Text?

Welche Tiere werden erwähnt?

Wie oft kommt X in Y vor?

Wie oft werden Pferde erwähnt?

Wieviel Einfluss hat X auf Y?

Sind Pferde eher schön?

Kann X als Y klassifiziert werden?

Sind Text mit Pferden eher Naturbeschreibungen?

Ist Konzept X konstant?

Werden Pferde im 19.Jhdt gleich beschrieben wie im 20.?

Wer hat X geschrieben?

Ist die Ode zum Pferd eher von Göthe oder Schiller?

Worthäufigkeiten == Bedeutung

Problemstellen

  • Methodische Schwächen
  • Erklärungsschwächen

Methodische Schwächen

  • Nutzen oft Dimension Reduction Techniken
  • Testen generell innerhalb des Samples aus dem das Modell kommt
  • Hypothese ist oft das Analyseergebnis

Erklärungsschwächen

  • Fehlende quantitative Analyse
  • Rigoroses testen mittels statistischer Methoden
  • Einbeziehung theoretischer Konstrukte

CLS Paperkategorien

  • Triviale Ergebnisse werden als methodische Validierung präsentiert
  • Schlussfolgerungen welche die Methode nicht erlaubt
  • Statistische non-Ergebnisse welche als Ergebnisse präsentiert werden

Word2Vec

  • n-gram Worthäufigkeiten als Input
  • Single-layer Neuronales Netz wird darauf gelernt
  • ~300 dimensionen großer Ergebnisvektorraum wird berechnet

Word2Vec

Mann → Frau == König → Königin

The Life Cycle of Genres

Hat sich der Stil in Krimis über die Zeit verändert?

The Life Cycle of Genres

  1. Trainiert ein Modell das Genre "Krimi" für Zeitraum "vor 1941" von allen anderen Genres unterscheiden kann
  2. Wendet dann das Modell auf das Genre "Krimi" für Zeitraum "nach 1941" and und tested ob das Genre von anderen Genres unterschieden werden kann
  3. Wenn das Modell unterscheiden kann, dann ist die Schlussfolgerungen, dass sich das Genre "Krimi" nicht verändert hat

Understanding gender and character agency in the 19th century novel

  1. Identifizieren automatisch Pronomen+Verb Paare
  2. Trainieren einen Nearest Shrunken Centroids Classifier
  3. Analysieren die höchsten Korrelationen

Understanding gender and character agency in the 19th century novel

  • Klassifikationsgenauigkeit 81%, Fehlerrate Frauen 23%, Männer 18%
  • Identifikation der top-10 Verben die eher männlich oder eher weiblich sind
  • Schließen aus der Fehlerrate, dass Gender bei Frauen weniger genau definiert ist, als bei Männern

"Stop words are usually semantically poor and yet stylistically rich ... The best means so far for determining authorship attribution and classifying text as categorically different."