Likert-Skala: Umfassendes Handbuch zur Gestaltung, Anwendung und Auswertung

2. April 2025 Redaktionsteam

Die Likert-Skala gehört zu den am häufigsten genutzten Instrumenten in Umfragen, Marktforschung, Bildungsforschung und vielen Bereichen der Sozialwissenschaften. Sie ermöglicht es, subjektive Bewertungen zu messen, Einstellungen abzubilden und Meinungen in strukturierter Form festzuhalten. In diesem Artikel erfahren Sie, wie die Likert-Skala funktioniert, welche Aufbauformen es gibt, wie sie sinnvoll gestaltet wird und wie man die daraus gewonnenen Daten zuverlässig auswertet. Ziel ist es, sowohl Anfängern als auch erfahrenen Forschenden praktische Orientierung zu geben – mit konkreten Tipps, Beispielen und Best Practices rund um die Likert-Skala.

Was ist die Likert-Skala?

Die Likert-Skala, benannt nach dem amerikanischen Sozialforscher Rensis Likert, ist eine mehrstufige Bewertungsskala, dietypische Aussagen in eine Rangordnung von Zustimmungen oder Ablehnungen überführt. Im Kern handelt es sich um eine Summen- oder Item-Skala, bei der mehrere Aussagen (Items) jeweils eine unabhängige Zustimmung oder Ablehnung erfassen. Die Ergebnisse der einzelnen Items werden oft zu einer Gesamtskala (Summenscore) zusammengeführt, wodurch sich ein individueller Grad an Übereinstimmung oder Zufriedenheit messen lässt.

Wesentliche Charakteristika der Likert-Skala sind:

Mehrstufige Antwortoptionen, typischerweise 5 oder 7 Kategorien.
Ort der Messung: Ordinaldaten, da die Abstände zwischen den Kategorien nicht notwendigerweise gleich groß sind.
Gängige Praxis, Items zu bündeln, um Reliabilität und Validität der Messung zu erhöhen.

In der Praxis bedeutet dies, dass die Likert-Skala eine flexible, robuste Methode darstellt, um subjektive Einschätzungen systematisch zu quantifizieren – sei es zur Kundenz Zufriedenheit, Mitarbeiterbindung, Lernmotivation oder zur Bewertung von Servicequalität. Die korrekte Bezeichnung lautet oft „Likert-Skala“ oder „Likert-Skala-Items“; in allen Beispielen und Überschriften verwenden wir konsequent die Form Likert-Skala, um Klarheit und Wiedererkennbarkeit sicherzustellen.

Historischer Hintergrund und Konzept

Der Likert-Skala liegt ein einfaches, aber zugleich effektives Prinzip zugrunde: Aus einer Reihe von Aussagen wird zu jeder Aussage eine Zustimmungsskala erhoben. Die einzelnen Items ermöglichen es, ein redundantes Abbild der zugrunde liegenden Einstellung zu erstellen. Die Idee dahinter ist, dass die Summe der Zustimmung über mehrere Items hinweg ein stabileres Maß liefert als eine einzelne Meinung. Aus heutiger Sicht ist die Likert-Skala ein Klassiker der Likert-Skala-Forschung – nicht zuletzt, weil sich damit sowohl breite Trends als auch feine Unterschiede erkennen lassen.

Wichtig zu verstehen ist, dass die Likert-Skala primär ordinal skaliert ist. Die Werte 1 bis 5 oder 1 bis 7 zeigen Reihenfolgen an, nicht notwendige Gleichabstände. Dennoch verwenden viele Forscher Summen- oder Mittelwertskalen, um die Daten besser interpretieren zu können. Diese Praxis ist verbreitet, setzt aber ein bewusstes Verständnis der Annahmen voraus, insbesondere bei der Auswahl geeigneter statistischer Verfahren.

Aufbauformen der Likert-Skala

Es gibt verschiedene gängige Aufbauformen der Likert-Skala, die je nach Forschungsziel und Zielgruppe gewählt werden. Die Wahl der Skalenlänge beeinflusst Sensitivität, Verteilung der Antworten und die Interpretierbarkeit der Ergebnisse.

5-Punkt-Skala

Die 5-Punkt-Likert-Skala ist die am häufigsten verwendete Variante. Typischer Aufbau:

1 – stimme überhaupt nicht zu
2 – stimme eher nicht zu
3 – weder stimme zu noch stimme ab
4 – stimme eher zu
5 – stimme voll und ganz zu

Vorteile:

Ausgewogene Mitte ermöglicht eine neutrale Position.
Einfache Interpretation und gute Akzeptanz bei Befragten.
Geringere kognitive Last beim Auswählen der Antwortoptionen.

Typische Einsatzgebiete sind Kundenzufriedenheit, Servicequalität und Mitarbeiterzufriedenheit. Die 5-Punkt-Skala bietet eine gute Balance zwischen Sensitivität und Verständlichkeit.

7-Punkt-Skala

Bei der 7-Punkt-Skala erhöht sich die Feinstruktur der Antworten. Beispiel:

1 – stimme überhaupt nicht zu
2 – stimme stark nicht zu
3 – stimme eher nicht zu
4 – neutral
5 – stimme eher zu
6 – stimme stark zu
7 – stimme voll und ganz zu

Vorteile:

Größere Differenzierung, besonders bei komplexen Einstellungen.
Bessere Verteilung der Antworten in größeren Stichproben.

Nachteile:

Größere kognitive Belastung, insbesondere für weniger vertraute Befragte.

Die 7-Punkt-Skala eignet sich gut, wenn feine Unterschiede in Einstellungen wichtig sind und die Zielgruppe gut informiert ist.

Wie funktionieren Likert-Skalen?

Im Kern handelt es sich bei der Likert-Skala um eine Abfolge von Items, die eine zugrunde liegende Einstellung oder Meinung messen. Jedes Item wird separat bewertet. Die Summierung oder Bildung eines gewichteten Mittels der Items ergibt eine Skala, die die Gesamteinstellung reflektiert. Die Logik dahinter ist einfach: Je mehr Zustimmung zu einer positiven Aussage besteht, desto höher der Summenscore – und umgekehrt.

Wichtige Überlegungen zur Funktionsweise:

Items sollten inhaltlich eindeutig formuliert und voneinander unabhängig sein.
Antwortkategorien sollten klar definiert sein, um Übersetzungen oder Interpretationsspielräume zu minimieren.
Reverse-coded Items (umgekehrt formulierte Aussagen) können verwendet werden, um Antworten auf Seriosität zu prüfen und Antworttendenzen entgegenzuwirken.

Was bedeuten die Skalenwerte? Interpretation von Likert-Daten

Da es sich bei der Likert-Skala um ordinales Messniveau handelt, gibt es besondere Regeln bei der Interpretation der Werte. Die zentrale Frage lautet: Soll man mit dem Median oder dem Mittelwert arbeiten, und welche Tests sind angemessen?

Deskriptive Statistik

Zur Beschreibung der Antworten eignen sich:

Median und Modus als robuste Maße der zentralen Tendenz.
Verteilungsmaße wie Quartile, Prozentränge und Grafiken (Histogramme, Boxplots).
Berechnung von Häufigkeiten pro Kategorie, um Muster sichtbar zu machen.

Der Mittelwert wird oft verwendet, insbesondere wenn mehrere Items zu einer Summen-Skala zusammengefügt werden. Hierbei ist wichtig, dass die zugrunde liegende Skala sinnvoll als Intervall interpretiert wird, was eine häufige, aber methodisch diskutierte Praxis ist.

Inferentielle Statistik und Hypothesentests

Bei Vergleichen von Gruppen oder Zeitpunkten auf Basis von Likert-Daten empfehlen sich nicht-parametrische Verfahren, da die Werte ordinal skaliert sind. Typische Tests sind:

Mann-Whitney-U-Test für zwei Gruppen.
Kruskal-Wallis-Test für mehr als zwei Gruppen.
Friedman-Test für abhängige Messungen (z. B. wiederholte Befragungen).

Wenn Sie eine Summen-Skala verwenden, können zusätzlich Verfahren der Inferenz eingesetzt werden, allerdings mit Vorsicht. Viele Forschende verwenden zusätzlich robuste Methoden oder bootstrapping, um Konfidenzintervalle für Mediane oder Summenwerte zu schätzen.

Design- und Praxis-Tipps für die Gestaltung einer Likert-Skala

Eine sorgfältige Gestaltung ist entscheidend, damit die Likert-Skala valide und zuverlässig misst, was beabsichtigt ist. Beachten Sie folgende Praxisrichtlinien:

Klare, eindeutige Formulierungen: Vermeiden Sie Doppelfragen und Mehrdeutigkeiten.
Ausgewogene Antwortkategorien: Vermeiden Sie Übergewicht auf einer Seite der Skala.
Midpoint sinnvoll nutzen: Eine neutrale Option ist oft sinnvoll, kann aber zu Tendenzen führen, wenn Respondenten diese zu häufig wählen.
Reverse-Coded Items: Sinnvoll zur Kontrolle von Antworttendenzen; achten Sie aber auf Verständlichkeit und klare Formulierung.
Vorab-Tests (Pretests): Pilotbefragungen helfen, Formulierungen zu prüfen und Missverständnisse zu erkennen.
Konsistenz über Items hinweg: Items, die dasselbe Konstrukt messen, sollten thematisch zusammenpassen, um keine inkonsistenten Messungen zu erzeugen.
Barrierefreiheit: Vermeiden Sie zu lange Sätze, verwenden Sie eine klare Sprache, besonders wenn jüngere oder ältere Zielgruppen befragt werden.
Sprache und Kultursensibilität: Achten Sie bei internationalen Anwendungen auf kulturelle Unterschiede in der Interpretation von Skalen.

Beispiel für eine gut gestaltete 5-Punkt-Likert-Skala:

Die Servicequalität dieses Unternehmens erfüllt meine Erwartungen.
Die Wartezeit war akzeptabel.
Das Preis-Leistungs-Verhältnis entspricht meinen Vorstellungen.
Ich würde dieses Unternehmen weiterempfehlen.
Gesamteindruck der Erfahrung: positiv negativ.

Beachten Sie bei der Formulierung, dass die Items jeweils zu einer einzigen Dimension passen sollten. Doppelte Bedeutungen, Mehrdeutigkeiten oder fachliche Fachbegriffe sollten vermieden werden, um Verzerrungen zu minimieren.

Reliabilität und Validität von Likert-Daten

Zuverlässigkeit und Messgenauigkeit spielen eine zentrale Rolle bei der Arbeit mit der Likert-Skala. Zwei zentrale Konzepte sind:

Cronbach’s Alpha

Zur Beurteilung der internen Konsistenz von mehreren Items, die ein gemeinsames Konstrukt messen, wird häufig Cronbach’s Alpha herangezogen. Werte über 0,70 gelten als akzeptabel, Werte über 0,80 als gut, Werte über 0,90 als sehr gut – allerdings kann ein zu hoher Wert auch auf Redundanz hinweisen, d. h. Items messen das Gleiche doppelt.

Validität

Validität bezieht sich darauf, ob die Skala tatsächlich das misst, was sie zu messen vorgibt. Hier spielen Konstruktvalidität, Inhaltsvalidität und Kriteriumsvalidität eine Rolle. Bei Summen-Skalen ist es sinnvoll, im Vorfeld eine theoretische Fundierung des Messkonzepts abzustecken und die Items entsprechend auszuwählen.

Analyse von Likert-Daten: Von Deskriptiv zu Inferenz

Die Analyse der Likert-Skala erfolgt in mehreren Schritten – von einer deskriptiven Übersicht bis zu inferenzstatistischen Schlüsse. Hier eine praxisnahe Orientierung:

Deskriptive Statistik

Starten Sie mit Häufigkeiten pro Kategorie, median, Modus und Quartilen. Visualisieren Sie Verteilungen mittels Balkendiagrammen oder Boxplots, um Muster, Schiefe und Ausreißer sichtbar zu machen.

Summierte Skala erstellen

Wenn mehrere Items dasselbe Konstrukt messen, können Sie eine Summen-Skala erstellen, indem Sie die einzelnen Item-Werte addieren. Achten Sie darauf, dass die Items inhaltlich konsistent sind und ggf. Reverse-Coded-Items korrekt verrechnet werden, bevor der Summenscore berechnet wird.

Reliabilität prüfen

Berechnen Sie Cronbach’s Alpha, um die interne Konsistenz der Skala zu prüfen. Falls Alpha zu niedrig ist, prüfen Sie die Item-Total-Korrelationen, ob einzelne Items entfernt werden sollten, um die Zuverlässigkeit zu erhöhen.

Gruppenvergleiche

Bei Vergleichen von zwei Gruppen (z. B. Kundinnen vs. Kunden) bietet sich der Mann-Whitney-U-Test an. Für mehr als zwei Gruppen eignet sich der Kruskal-Wallis-Test. Sind die Entscheidungen abhängig (z. B. vor und nach einer Intervention), kann der Friedman-Test sinnvoll sein.

Interpretation der Ergebnisse

Behalten Sie im Blick, dass es sich um ordinal skalierte Daten handelt. Die Interpretation von Unterschieden in Medianscores oder Summenwerten sollte sich auf Rangunterschiede konzentrieren, nicht auf exakte Durchschnittswerte. Berücksichtigen Sie außerdem die Skalierung, die Stichprobengröße und mögliche Verzerrungen durch Zwischenfaktoren.

Praxisbeispiele aus der Forschung

In der Bildungsforschung wird die Likert-Skala oft genutzt, um Lernmotivation, Zufriedenheit mit Lehrmaterialien oder Lernumgebungen zu messen. In der Marktforschung dient die Likert-Skala der Bewertung von Produkt- und Serviceatmosphäre, Markenimage und Nutzererfahrungen. In der Personalpsychologie erfasst sie Arbeitszufriedenheit, Leadership-Perzeptionen und Teamkultur. In all diesen Bereichen bietet die Likert-Skala eine Methode, um subjektive Erfahrungen strukturiert zu quantifizieren und vergleichbar zu machen. Die Besonderheit besteht darin, dass die Skala flexibel bleibt und sich unterschiedlichen Fragestellungen anpassen lässt – von kurzen Inline-Befragungen bis zu umfangreichen, mehrstufigen Messungen.

Best Practices in der Forschung und Praxis

Um die Likert-Skala effektiv einzusetzen, empfiehlt es sich, diese Best Practices zu berücksichtigen:

Klare Zieldefinition: Welche Einstellung oder welches Konstrukt soll gemessen werden?
Auswahl geeigneter Items: Jedes Item sollte ein eigenständiges Konzept messen, das zum Gesamtkonstrukt beiträgt.
Auswahl der Skalenlänge: Je nach Kontext und Zielgruppe 5- oder 7-Punkt-Skalen nutzen.
Ausbalancierung der Antwortkategorien: Gleichgewicht zwischen positiven und negativen Optionen, klare Richtung jeder Aussage.
Vorabtests und Pilotstudien durchführen, um Verständlichkeit sicherzustellen.
Rückwärts formulierende Items sinnvoll einsetzen, um Antworttendenzen zu erkennen.

Häufige Fehler und Missverständnisse

Um ungütige Interpretationen zu vermeiden, sollten folgende häufige Fehler vermieden werden:

Behandlung ordinaler Daten als Intervall- oder Verhältnisskala ohne Begründung (z. B. Mittelwertvergleiche auf Likert-Summenwerte können akzeptabel sein, sollten aber kritisch geprüft werden).
Doppelte Fragen in einem Item (Double- barreled items), die unterschiedliche Konzepte zusammenfassen.
Zu lange Fragebögen, die die Aufmerksamkeit und Repräsentativität der Antworten beeinträchtigen.
Unklare oder irreführende Formulierungen, die zu Verzerrungen führen.
Nichtbeachtung kultureller Unterschiede in der Interpretation von Skalen.

Zusammenfassung

Die Likert-Skala ist ein vielseitiges Instrument, das sich in vielen Bereichen bewährt hat. Von der einfachen 5-Punkt-Skala bis zur detaillierten 7-Punkt-Ausführung bietet sie eine pragmatische Lösung, um Subjektives messbar zu machen. Die zentrale Botschaft lautet: Verstehen Sie die Natur der Likert-Skala als ordinales Messinstrument, gestalten Sie Items sorgfältig, prüfen Sie Reliabilität und Validität und wählen Sie passende Analysemethoden entsprechend der Fragestellung und der Stichprobe. Mit einer durchdachten Gestaltung, fundierten Analysen und einer klaren Berichterstattung lässt sich die Likert-Skala zu einem leistungsstarken Baustein jeder empirischen Untersuchung machen.

FAQ zur Likert-Skala

Was ist der Unterschied zwischen Likert-Skala und semantischer Differenz?

Die Likert-Skala fokussiert sich auf Zustimmung oder Ablehnung zu Aussagen mit mehreren Items. Die semantische Differenz nutzt bipolare Adjektivpaare (z. B. gut – schlecht) mit einer Skala dazwischen. Beide Methoden erfassen Einstellungen, unterscheiden sich jedoch im Aufbau und in der Interpretation der Resultate.

Kann man Mittelwerte bei Likert-Daten verwenden?

Die Praxis sieht häufig vor, Summen- oder Mittelwerte von mehreren Items zu verwenden, um eine Gesamtbewertung zu erhalten. Technisch handelt es sich um ordinale Daten, daher sollten Mittelwerte mit Vorsicht interpretiert werden. Bei größeren Stichproben liefert die Summen-Skala dennoch oft robuste Hinweise auf Unterschiede oder Trends.

Wie viele Items braucht eine Likert-Skala?

Die Anzahl der Items hängt vom Messkonstrukt ab. Typischerweise reichen 4–6 Items pro Konstruktion, doch komplexe Konstrukte können mehr Items benötigen. Wichtig ist, dass die Items inhaltlich unabhängig bleiben und das Gesamtziel der Messung unterstützen.

Was bedeutet Reverse-Coding?

Reverse-Coding bedeutet, dass ein Item so formuliert ist, dass eine gegenteilige Zustimmung eine niedrigere Punktzahl ergibt. Es dient der Erkennung von Antworttendenzen und erhöht die Validität der Skala. Die korrekte Berücksichtigung beim Berechnen des Summen- oder Mittelwerts ist essenziell.