Clusterananlyse

Übung: Social Media, Gym

Author

Affiliation

Prof. Dr. Armin Eichinger

TH Deggendorf

Published

19.11.2025

Aufgabe: Regionen

Vollziehen Sie das Beispiel zu den Regionen aus der Vorlesung nach. Die Daten finden Sie hier.

Kopieren Sie schrittweise den Code in ein leeres Quarto-Dokument und bauen Sie das Beispiel so auf.

Aufgabe: Social Media + Gym

Ein Beispiel, das ich von der Seite datatab.de habe: Elf Personen wurden danach gefragt, wie viele Stunden sie in der Woche auf Social-Media-Plattformen und im Fitnessstudio verbringen.

Führen Sie eine Clusterananlyse in folgenden Schritten durch:

Erstellen Sie ein leeres Quarto-Dokument und geben Sie ihm die Dateiendung .qmd.
Lesen Sie die Daten ein (die Sie auch hier finden); Sie können sie aber auch direkt von ihrem Online-Speicherort einlesen. Kopieren Sie dazu die Adresse des Links.
Lassen Sie sich zur Kontrolle die Daten ausgeben. Dazu rufen Sie einfach den Namen der Variablen auf, die auf die Daten verweist.
Erstellen Sie den Code für die folgenden Teilaufgaben. Kopieren Sie dazu den Code aus der Vorlesung und passen Sie ihn an. Lassen Sie sich von ChatGPT helfen.
1. Überführen Sie die Daten in z-transformierte Werte
2. Erstellen Sie die Distanz-Matrix
3. Führen Sie die eigentliche Clusteranalyse durch
4. Geben Sie das Dendrogramm aus
5. Geben Sie den Screeplot aus
6. [optional] Identifizieren und entfernen Sie ggf. Ausreißer (bei mir sieht der Code so aus: socmedia_gym_data_z <- socmedia_gym_data_z[-10, ])
7. [optional] Nun ohne Ausreißer: CA + Dendrogramm + Screeplot
8. [optional]: Erstellen Sie die Profildiagramme für zwei Cluster.
Beantworten Sie die folgenden Fragen:
1. In welcher Zeile wird die Anzahl Cluster festgelegt?
2. Wie heißt die Funktion, die das tut?
3. Wie heißt die Funktion, die die eigentliche Clusteranayse durchführe? Nach welchem Verfahren?
4. Was macht die Funktion scale?
5. Interpretieren Sie die Profildiagramme.

Bei mir sieht der Output dazu wie folgt aus (einmal mit allen Daten und einmal nach Entfernung eines Ausreißers; ich geben Ihnen den Code gleich mit aus):

# Beispiel kommt von hier: 
# https://datatab.de/statistik-rechner/cluster/hierarchische-clusteranalyse-rechner?example=hierarchische_clusteranalyse

# Einlesen der Daten
socmedia_gym_data <- read.csv("https://bookdown.org/Armin_E/ca_ex_1/data/ca_ex_socmedia_gym.csv", 
                              row.names = 1, sep=";")

# Ausgeben der Daten
socmedia_gym_data

     SocialMedia Gym
Alan           7   3
Lisa           5   2
Joe            5   3
Max            7   4
Cora           4   5
Adam           8   9
Kim            2  12
Ali            8   2
Chen           4  14
Jack          14   1
Levi           8  10

# z-Transformation der Daten
socmedia_gym_data_z <- scale(socmedia_gym_data) 

# Erstellen der Distanzmatrix
dist_matrix <- dist(socmedia_gym_data_z, method = "euclid")

# Durchführen der CA 
hc_result <- hclust(dist_matrix, method = "complete")

# Dendrogramm erstellen
plot(hc_result, hang=-1)

# Scree-Plot erstellen
plot(1:(length(hc_result$height)), rev(hc_result$height), type = "b",
     xlab = "Anzahl der Cluster",
     ylab = "Höhe der Fusionen",
     main = "Screeplot für hierarchische Clusteranalyse")

# Datensatz Nummer 10 entfernen
socmedia_gym_data_z <- socmedia_gym_data_z[-10, ]

# Erstellen der Distanzmatrix
dist_matrix <- dist(socmedia_gym_data_z, method = "euclid")

# Durchführen der CA 
hc_result <- hclust(dist_matrix, method = "complete")

# Dendrogramm erstellen
plot(hc_result, hang=-1)

# Scree-Plot erstellen
plot(1:(length(hc_result$height)), rev(hc_result$height), type = "b",
     xlab = "Anzahl der Cluster",
     ylab = "Höhe der Fusionen",
     main = "Screeplot für hierarchische Clusteranalyse")

#### Clusterzuordnung
# Cluster-Zuordnung für k Cluster
cluster_assignments <- cutree(hc_result, k = 4)

# Matrix wird in Dataframe umgewandelt (macht das Spalte-Anhängen leichter)
socmedia_gym_data_z <- as.data.frame(socmedia_gym_data_z)

# Der Dataframe erhält eine neue Spalte "Cluster"
socmedia_gym_data_z$Cluster <- factor(cluster_assignments)

# Daten MIT Cluster
socmedia_gym_data_z

     SocialMedia        Gym Cluster
Alan   0.1432200 -0.6426532       1
Lisa  -0.4869481 -0.8635652       2
Joe   -0.4869481 -0.6426532       2
Max    0.1432200 -0.4217412       1
Cora  -0.8020322 -0.2008291       2
Adam   0.4583041  0.6828190       3
Kim   -1.4322004  1.3455552       4
Ali    0.4583041 -0.8635652       1
Chen  -0.8020322  1.7873792       4
Levi   0.4583041  0.9037311       3

#### Profildiagramme; 
# Code-Vorlage arbeitet mit "df", daher umbenennen
df <- socmedia_gym_data_z

#### Code ab hier uninteressant

# Mittelwerte für jede Dimension pro Cluster berechnen
cluster_means <- aggregate(. ~ Cluster, data = df, FUN = mean)

# Anzahl der Cluster
num_clusters <- length(unique(df$Cluster))

# Layout für die Plots
par(mfrow = c(1, num_clusters))  # Layout festlegen für die Anzahl der Cluster

# Für jedes Cluster ein Balkendiagramm erstellen
for (i in 1:num_clusters) {
  # Daten für das aktuelle Cluster (ohne Cluster-Spalte)
  data <- as.numeric(cluster_means[i, -1])
  
  # Namen der Attribute für die x-Achse
  names(data) <- names(cluster_means)[-1]
  
  # Balkendiagramm erstellen
  barplot(
    data,
    main = paste("Cluster", cluster_means$Cluster[i]),  # Titel des Diagramms
    ylim = c(-2, 2),  # Skalierung der y-Achse
    col = "lightblue",  # Farbe der Balken
    xlab = "Attribute",  # Bezeichnung der x-Achse
    ylab = "Mittelwert",  # Bezeichnung der y-Achse
    las = 2  # Dreht die x-Achsenbeschriftungen für bessere Lesbarkeit
  )
}

Aufgabe Soziale Medien: EFA + CA (relevant sobald wir die EFA besprochen haben)

Erinnern Sie sich an die Aufgabe zu den Sozialen Medien, die wir im Rahmen der Faktorenanalyse besprochen haben. 25 Versuchspersonen haben vier Arten von Fragen zu sieben Sozialen Medien beantwortet. Wir haben neun Variablen ausgewählt, für die wir eine zweifaktorielle Lösung erstellt haben.

Einen Teil der Analyse und des Outputs sehen Sie hier:

library(dplyr)
library(psych)

soz_med_data <- read.csv("https://bookdown.org/Armin_E/explorativ-multivariat-efa/data/fa_sozmed.csv", 
                         sep=";")
soz_med_data <- soz_med_data %>% select(2,3,4,9,10,11,16,17,18) 

# Parallel-Test
fa.parallel(soz_med_data, fa="fa")

Parallel analysis suggests that the number of factors =  2  and the number of components =  NA

# X? Faktoren (vgl. Parallel-Test), varimax-Rotation
efa_result <- fa(soz_med_data, nfactors = 2, rotate = "varimax")

print(efa_result, digits=2, cut=0.3, sort=TRUE)

Factor Analysis using method =  minres
Call: fa(r = soz_med_data, nfactors = 2, rotate = "varimax")
Standardized loadings (pattern matrix) based upon correlation matrix
             item   MR1   MR2   h2   u2 com
X1.TikTok       2  0.73       0.63 0.37 1.3
X1.Instagram    1  0.71       0.56 0.44 1.2
X2.TikTok       5  0.71 -0.36 0.62 0.38 1.5
X2.Instagram    4  0.68       0.48 0.52 1.0
X1.SnapChat     3  0.59       0.40 0.60 1.3
X2.SnapChat     6  0.57       0.32 0.68 1.0
X3.Instagram    7        0.64 0.41 0.59 1.0
X3.TikTok       8        0.61 0.38 0.62 1.0
X3.SnapChat     9        0.61 0.37 0.63 1.0

                       MR1  MR2
SS loadings           2.69 1.49
Proportion Var        0.30 0.17
Cumulative Var        0.30 0.46
Proportion Explained  0.64 0.36
Cumulative Proportion 0.64 1.00

Mean item complexity =  1.2
Test of the hypothesis that 2 factors are sufficient.

df null model =  36  with the objective function =  5.15 with Chi Square =  103.95
df of  the model are 19  and the objective function was  2.48 

The root mean square of the residuals (RMSR) is  0.11 
The df corrected root mean square of the residuals is  0.15 

The harmonic n.obs is  25 with the empirical chi square  22.73  with prob <  0.25 
The total n.obs was  25  with Likelihood Chi Square =  46.79  with prob <  0.00038 

Tucker Lewis Index of factoring reliability =  0.138
RMSEA index =  0.238  and the 90 % confidence intervals are  0.158 0.337
BIC =  -14.37
Fit based upon off diagonal values = 0.9
Measures of factor score adequacy             
                                                   MR1  MR2
Correlation of (regression) scores with factors   0.92 0.85
Multiple R square of scores with factors          0.85 0.71
Minimum correlation of possible factor scores     0.69 0.43

# Ggf. Faktor-Scores berechnen
factor_scores <- factor.scores(soz_med_data,f=efa_result) 
factor_scores$scores

              MR1         MR2
 [1,] -0.01726520  1.51089350
 [2,] -0.49517636  0.15952489
 [3,]  0.36203742 -1.42469189
 [4,] -0.93129323  0.14814349
 [5,] -1.59645049  0.36442379
 [6,]  0.43117727  1.06861289
 [7,]  0.83670982  0.09878296
 [8,]  1.39215033  0.39014641
 [9,]  0.53571083 -2.35739213
[10,] -0.18788474  1.14204165
[11,]  0.52129397 -0.57464254
[12,] -1.84903266 -1.81880266
[13,]  1.56289818  0.56616725
[14,] -1.70351743 -0.58657305
[15,] -0.03135617  0.51744994
[16,] -0.01319445  0.23089271
[17,] -0.68561693  1.41348490
[18,] -1.34169630  0.67060760
[19,]  0.74099294 -1.04325394
[20,]  0.84810049 -0.81995737
[21,]  1.22901160  0.25583566
[22,] -1.15978348  0.80192193
[23,]  0.18421419 -0.92246263
[24,]  1.25884018  0.78567809
[25,]  0.10913023 -0.57683146

# Weitere Diagramme

# Achsen festlegen
xlim = c(-2, 2)
ylim = c(-1.5, 1.5)

# Personen im Faktorraum
plot(factor_scores$scores, xlim=xlim,ylim=ylim)
text(factor_scores$scores, labels = c(1:25), cex = 0.9, pos = 1, font = 1, col = "black")

# Achsen festlegen
xlim = c(-1, 1)
ylim = c(-1, 1.5)

Unser eigentliches Thema ist ja die Clusteranalyse. Wir könnten nun mit denselben neun Variablen eine Clusteranalyse durchführen. Zum Verständnis: Jede der 25 Personen hätte dann neun Werte, die in die Analyse eingehen.

Wir können aber einen viel eleganteren – und hinsichtlich der erforderlichen Daten sparsameren – Weg gehen: Wir können statt der neun Variablen die zwei Faktorwerte (Factor-Scores) verwenden, die wir aus der EFA erhalten haben (die heißen factor_scores$scores).

Die Faktoren sollten ja die Essenz der Variablen zusammenfassen. Das nutzen wir nun aus. Es ist auch viel einfacher, eine Lösung mit zwei Faktoren als mit neun Variablen zu interpretieren.

############# ClusteranalyseA

efa4ca_data <- factor_scores$scores

efa4ca_data_z <- scale(efa4ca_data) 

dist_matrix <- dist(efa4ca_data_z, method = "euclid")

# Durchführen der CA 
hc_result <- hclust(dist_matrix, method = "complete")

# Dendrogramm erstellen
plot(hc_result, hang=-1)

# Scree-Plot erstellen
plot(1:(length(hc_result$height)), rev(hc_result$height), type = "b",
     xlab = "Anzahl der Cluster",
     ylab = "Höhe der Fusionen",
     main = "Screeplot für hierarchische Clusteranalyse")

#### Clusterzuordnung
# Cluster-Zuordnung für k Cluster
cluster_assignments <- cutree(hc_result, k = 4)

# Matrix wird in Dataframe umgewandelt (macht das Spalte-Anhängen leichter)
efa4ca_data_z <- as.data.frame(efa4ca_data_z)

# Der Dataframe erhält eine neue Spalte "Cluster"
efa4ca_data_z$Cluster <- factor(cluster_assignments)

# Daten MIT Cluster
efa4ca_data_z

           MR1         MR2 Cluster
1  -0.01726520  1.51089350       1
2  -0.49517636  0.15952489       1
3   0.36203742 -1.42469189       2
4  -0.93129323  0.14814349       1
5  -1.59645049  0.36442379       1
6   0.43117727  1.06861289       1
7   0.83670982  0.09878296       3
8   1.39215033  0.39014641       3
9   0.53571083 -2.35739213       2
10 -0.18788474  1.14204165       1
11  0.52129397 -0.57464254       2
12 -1.84903266 -1.81880266       4
13  1.56289818  0.56616725       3
14 -1.70351743 -0.58657305       4
15 -0.03135617  0.51744994       1
16 -0.01319445  0.23089271       1
17 -0.68561693  1.41348490       1
18 -1.34169630  0.67060760       1
19  0.74099294 -1.04325394       2
20  0.84810049 -0.81995737       2
21  1.22901160  0.25583566       3
22 -1.15978348  0.80192193       1
23  0.18421419 -0.92246263       2
24  1.25884018  0.78567809       3
25  0.10913023 -0.57683146       2

#### Profildiagramme; 
# Code-Vorlage arbeitet mit "df", daher umbenennen
df <- efa4ca_data_z

#### Code ab hier uninteressant

# Mittelwerte für jede Dimension pro Cluster berechnen
cluster_means <- aggregate(. ~ Cluster, data = df, FUN = mean)

# Anzahl der Cluster
num_clusters <- length(unique(df$Cluster))

# Layout für die Plots
par(mfrow = c(1, num_clusters))  # Layout festlegen für die Anzahl der Cluster

# Für jedes Cluster ein Balkendiagramm erstellen
for (i in 1:num_clusters) {
  # Daten für das aktuelle Cluster (ohne Cluster-Spalte)
  data <- as.numeric(cluster_means[i, -1])
  
  # Namen der Attribute für die x-Achse
  names(data) <- names(cluster_means)[-1]
  
  # Balkendiagramm erstellen
  barplot(
    data,
    main = paste("Cluster", cluster_means$Cluster[i]),  # Titel des Diagramms
    ylim = c(-2, 2),  # Skalierung der y-Achse
    col = "lightblue",  # Farbe der Balken
    xlab = "Attribute",  # Bezeichnung der x-Achse
    ylab = "Mittelwert",  # Bezeichnung der y-Achse
    las = 2  # Dreht die x-Achsenbeschriftungen für bessere Lesbarkeit
  )
}

Aufgabe: Big5

Nicht wirklich eine Aufgabe. Hier habe ich den Code von oben auf andere Daten angewendet: auf eine csv-Datei, die die OCEAN-Ratings von 200 Prominenten enthält, die ChatGPT für uns erzeugt hat. Die Daten finden Sie hier.

# Beispiel kommt von hier: 
# https://datatab.de/statistik-rechner/cluster/hierarchische-clusteranalyse-rechner?example=hierarchische_clusteranalyse

# Einlesen der Daten
big5_data <- read.csv("https://bookdown.org/Armin_E/ca_ex_1/data/big5_200.csv", row.names = 1, sep=",")

# Ausgeben der Daten
big5_data

                         O   C   E   A   N
Albert Einstein        5.0 3.5 2.0 3.5 2.5
Marie Curie            4.5 4.5 2.0 3.5 2.0
Leonardo da Vinci      5.0 3.0 3.0 3.0 2.5
Beyoncé                4.0 4.0 4.5 3.5 2.5
Taylor Swift           4.0 4.5 4.0 4.0 3.0
Serena Williams        3.0 4.5 3.5 3.0 2.5
Cristiano Ronaldo      3.0 4.5 4.0 3.0 2.5
Barack Obama           4.0 4.0 4.0 4.0 2.0
Angela Merkel          3.5 4.5 2.5 4.0 2.0
Donald Trump           2.0 3.0 4.5 2.0 3.0
Elon Musk              4.5 3.5 3.0 2.5 2.5
Oprah Winfrey          4.0 3.5 4.5 4.5 2.5
Greta Thunberg         4.0 4.5 2.5 3.5 3.0
Malala Yousafzai       4.0 4.0 3.0 4.5 2.5
Dalai Lama             4.0 3.5 3.0 5.0 1.5
Steve Jobs             5.0 3.5 3.5 2.5 2.5
Bill Gates             4.0 4.5 3.0 3.5 2.0
Rihanna                4.0 3.5 4.0 3.5 2.5
Winston Churchill      3.5 3.5 4.0 3.0 3.0
Adele                  4.0 3.5 3.0 4.0 3.5
Mahatma Gandhi         4.0 4.0 2.5 5.0 1.5
Nelson Mandela         4.0 4.5 3.5 5.0 2.0
Martin Luther King Jr. 4.5 4.0 4.5 4.5 2.0
John Lennon            5.0 3.0 3.5 3.5 3.0
Freddie Mercury        4.5 3.0 5.0 3.0 3.0
Michael Jackson        4.5 3.0 4.0 3.0 4.0
Lady Gaga              5.0 3.0 4.5 3.5 3.0
Madonna                4.5 3.0 4.5 3.0 3.5
Britney Spears         3.5 3.0 4.5 3.5 4.0
Kanye West             4.5 2.5 5.0 2.0 3.5
Taylor Lautner         3.0 3.5 4.0 3.5 2.5
Jennifer Lawrence      4.0 3.5 4.5 4.0 3.0
Scarlett Johansson     4.0 4.0 4.0 3.5 2.5
Angelina Jolie         4.5 3.0 4.0 3.0 3.5
Brad Pitt              4.0 3.5 4.0 3.5 2.5
George Clooney         4.0 4.0 4.0 4.0 2.5
Leonardo DiCaprio      4.5 3.5 4.0 3.5 3.0
Tom Hanks              4.0 4.0 3.5 4.5 2.0
Meryl Streep           5.0 4.0 3.5 4.0 2.0
Morgan Freeman         4.0 4.0 3.0 5.0 1.5
Denzel Washington      4.0 4.5 3.5 4.0 2.0
Will Smith             4.0 3.5 5.0 4.0 2.5
Chris Rock             3.5 3.0 4.5 3.5 3.0
Ellen DeGeneres        4.0 3.5 4.5 4.0 2.5
Trevor Noah            4.0 3.5 4.5 4.0 2.5
Stephen Hawking        5.0 4.5 2.0 4.0 2.0
Neil deGrasse Tyson    4.5 4.0 3.5 3.5 2.0
Mark Zuckerberg        3.5 4.0 2.5 2.5 2.5
Jeff Bezos             4.0 4.5 3.0 3.0 2.0
Sheryl Sandberg        3.5 4.5 3.0 3.5 2.0
Jacinda Ardern         4.0 4.0 3.5 5.0 2.0
Emmanuel Macron        3.5 4.0 3.5 3.5 2.5
Vladimir Putin         2.5 4.0 3.0 2.0 3.0
Xi Jinping             2.5 4.5 2.5 2.5 2.0
Kim Jong-un            2.0 3.0 3.5 1.5 3.5
Volodymyr Zelenskyy    4.0 3.5 4.0 3.5 3.0
Pope Francis           3.5 3.5 3.0 5.0 2.0
Mother Teresa          3.5 4.0 2.5 5.0 1.5
Florence Nightingale   3.5 4.5 2.5 4.5 2.0
Charles Darwin         5.0 4.0 2.5 3.5 2.5
Sigmund Freud          4.0 3.5 3.0 2.5 3.5
Carl Jung              5.0 3.5 2.5 3.5 2.5
Friedrich Nietzsche    5.0 3.0 2.5 2.5 4.0
Immanuel Kant          4.5 5.0 2.0 3.5 2.0
Plato                  4.5 4.0 2.5 3.5 2.0
Aristotle              4.5 4.5 3.0 3.5 2.0
Socrates               4.5 3.5 3.0 3.5 3.0
Confucius              4.0 4.0 2.5 4.0 2.0
Sun Tzu                3.5 4.0 2.5 3.0 2.5
Julius Caesar          3.5 4.0 4.0 2.5 3.0
Alexander the Great    3.5 3.5 4.5 2.5 3.0
Cleopatra              4.0 3.0 4.0 2.5 3.5
Joan of Arc            4.0 4.0 3.5 4.0 3.0
Queen Elizabeth II     3.0 5.0 2.5 3.5 2.0
Princess Diana         4.0 3.5 3.5 4.5 3.0
Catherine the Great    4.0 4.0 3.5 3.0 3.0
Marie Antoinette       3.5 3.0 4.0 2.5 3.5
Napoleon Bonaparte     4.0 4.0 4.5 2.5 3.0
Abraham Lincoln        4.0 4.5 3.0 4.5 2.5
George Washington      3.5 4.5 3.5 4.0 2.5
Thomas Jefferson       4.5 4.0 3.0 3.5 2.5
Benjamin Franklin      5.0 4.0 3.5 3.5 2.5
Theodore Roosevelt     4.0 4.0 4.5 3.0 3.0
Franklin D. Roosevelt  4.0 4.0 4.0 4.0 2.5
John F. Kennedy        4.0 3.5 4.5 4.0 2.5
Richard Nixon          3.0 3.5 3.0 2.5 3.5
Ronald Reagan          3.5 4.0 4.0 3.5 2.5
Bill Clinton           4.0 3.5 4.5 3.5 3.0
Hillary Clinton        4.0 4.5 3.5 3.5 3.0
Joe Biden              3.5 4.0 3.5 4.0 2.5

# z-Transformation der Daten
big5_data_z <- scale(big5_data) 

# Erstellen der Distanzmatrix
dist_matrix <- dist(big5_data_z, method = "euclid")

# Durchführen der CA 
hc_result <- hclust(dist_matrix, method = "complete")

# Dendrogramm erstellen
plot(hc_result, hang=-1, cex = 0.4)
rect.hclust(hc_result, k = 5, border = "red")   # 3 Cluster markieren

# Scree-Plot erstellen
plot(1:(length(hc_result$height)), rev(hc_result$height), type = "b",
     xlab = "Anzahl der Cluster",
     ylab = "Höhe der Fusionen",
     main = "Screeplot für hierarchische Clusteranalyse")

#### Clusterzuordnung
# Cluster-Zuordnung für k Cluster
cluster_assignments <- cutree(hc_result, k = 5)

# Matrix wird in Dataframe umgewandelt (macht das Spalte-Anhängen leichter)
big5_data_z <- as.data.frame(big5_data_z)

# Der Dataframe erhält eine neue Spalte "Cluster"
big5_data_z$Cluster <- factor(cluster_assignments)

# Daten MIT Cluster
big5_data_z

                                 O          C           E          A          N
Albert Einstein         1.59719691 -0.5779552 -1.93124524 -0.0288089 -0.1825799
Marie Curie             0.81595929  1.2797580 -1.93124524 -0.0288089 -1.0474319
Leonardo da Vinci       1.59719691 -1.5068119 -0.65321530 -0.6770092 -0.1825799
Beyoncé                 0.03472167  0.3509014  1.26382961 -0.0288089 -0.1825799
Taylor Swift            0.03472167  1.2797580  0.62481464  0.6193914  0.6822721
Serena Williams        -1.52775356  1.2797580 -0.01420033 -0.6770092 -0.1825799
Cristiano Ronaldo      -1.52775356  1.2797580  0.62481464 -0.6770092 -0.1825799
Barack Obama            0.03472167  0.3509014  0.62481464  0.6193914 -1.0474319
Angela Merkel          -0.74651595  1.2797580 -1.29223027  0.6193914 -1.0474319
Donald Trump           -3.09022880 -1.5068119  1.26382961 -1.9734099  0.6822721
Elon Musk               0.81595929 -0.5779552 -0.65321530 -1.3252096 -0.1825799
Oprah Winfrey           0.03472167 -0.5779552  1.26382961  1.2675917 -0.1825799
Greta Thunberg          0.03472167  1.2797580 -1.29223027 -0.0288089  0.6822721
Malala Yousafzai        0.03472167  0.3509014 -0.65321530  1.2675917 -0.1825799
Dalai Lama              0.03472167 -0.5779552 -0.65321530  1.9157921 -1.9122839
Steve Jobs              1.59719691 -0.5779552 -0.01420033 -1.3252096 -0.1825799
Bill Gates              0.03472167  1.2797580 -0.65321530 -0.0288089 -1.0474319
Rihanna                 0.03472167 -0.5779552  0.62481464 -0.0288089 -0.1825799
Winston Churchill      -0.74651595 -0.5779552  0.62481464 -0.6770092  0.6822721
Adele                   0.03472167 -0.5779552 -0.65321530  0.6193914  1.5471242
Mahatma Gandhi          0.03472167  0.3509014 -1.29223027  1.9157921 -1.9122839
Nelson Mandela          0.03472167  1.2797580 -0.01420033  1.9157921 -1.0474319
Martin Luther King Jr.  0.81595929  0.3509014  1.26382961  1.2675917 -1.0474319
John Lennon             1.59719691 -1.5068119 -0.01420033 -0.0288089  0.6822721
Freddie Mercury         0.81595929 -1.5068119  1.90284457 -0.6770092  0.6822721
Michael Jackson         0.81595929 -1.5068119  0.62481464 -0.6770092  2.4119762
Lady Gaga               1.59719691 -1.5068119  1.26382961 -0.0288089  0.6822721
Madonna                 0.81595929 -1.5068119  1.26382961 -0.6770092  1.5471242
Britney Spears         -0.74651595 -1.5068119  1.26382961 -0.0288089  2.4119762
Kanye West              0.81595929 -2.4356685  1.90284457 -1.9734099  1.5471242
Taylor Lautner         -1.52775356 -0.5779552  0.62481464 -0.0288089 -0.1825799
Jennifer Lawrence       0.03472167 -0.5779552  1.26382961  0.6193914  0.6822721
Scarlett Johansson      0.03472167  0.3509014  0.62481464 -0.0288089 -0.1825799
Angelina Jolie          0.81595929 -1.5068119  0.62481464 -0.6770092  1.5471242
Brad Pitt               0.03472167 -0.5779552  0.62481464 -0.0288089 -0.1825799
George Clooney          0.03472167  0.3509014  0.62481464  0.6193914 -0.1825799
Leonardo DiCaprio       0.81595929 -0.5779552  0.62481464 -0.0288089  0.6822721
Tom Hanks               0.03472167  0.3509014 -0.01420033  1.2675917 -1.0474319
Meryl Streep            1.59719691  0.3509014 -0.01420033  0.6193914 -1.0474319
Morgan Freeman          0.03472167  0.3509014 -0.65321530  1.9157921 -1.9122839
Denzel Washington       0.03472167  1.2797580 -0.01420033  0.6193914 -1.0474319
Will Smith              0.03472167 -0.5779552  1.90284457  0.6193914 -0.1825799
Chris Rock             -0.74651595 -1.5068119  1.26382961 -0.0288089  0.6822721
Ellen DeGeneres         0.03472167 -0.5779552  1.26382961  0.6193914 -0.1825799
Trevor Noah             0.03472167 -0.5779552  1.26382961  0.6193914 -0.1825799
Stephen Hawking         1.59719691  1.2797580 -1.93124524  0.6193914 -1.0474319
Neil deGrasse Tyson     0.81595929  0.3509014 -0.01420033 -0.0288089 -1.0474319
Mark Zuckerberg        -0.74651595  0.3509014 -1.29223027 -1.3252096 -0.1825799
Jeff Bezos              0.03472167  1.2797580 -0.65321530 -0.6770092 -1.0474319
Sheryl Sandberg        -0.74651595  1.2797580 -0.65321530 -0.0288089 -1.0474319
Jacinda Ardern          0.03472167  0.3509014 -0.01420033  1.9157921 -1.0474319
Emmanuel Macron        -0.74651595  0.3509014 -0.01420033 -0.0288089 -0.1825799
Vladimir Putin         -2.30899118  0.3509014 -0.65321530 -1.9734099  0.6822721
Xi Jinping             -2.30899118  1.2797580 -1.29223027 -1.3252096 -1.0474319
Kim Jong-un            -3.09022880 -1.5068119 -0.01420033 -2.6216102  1.5471242
Volodymyr Zelenskyy     0.03472167 -0.5779552  0.62481464 -0.0288089  0.6822721
Pope Francis           -0.74651595 -0.5779552 -0.65321530  1.9157921 -1.0474319
Mother Teresa          -0.74651595  0.3509014 -1.29223027  1.9157921 -1.9122839
Florence Nightingale   -0.74651595  1.2797580 -1.29223027  1.2675917 -1.0474319
Charles Darwin          1.59719691  0.3509014 -1.29223027 -0.0288089 -0.1825799
Sigmund Freud           0.03472167 -0.5779552 -0.65321530 -1.3252096  1.5471242
Carl Jung               1.59719691 -0.5779552 -1.29223027 -0.0288089 -0.1825799
Friedrich Nietzsche     1.59719691 -1.5068119 -1.29223027 -1.3252096  2.4119762
Immanuel Kant           0.81595929  2.2086147 -1.93124524 -0.0288089 -1.0474319
Plato                   0.81595929  0.3509014 -1.29223027 -0.0288089 -1.0474319
Aristotle               0.81595929  1.2797580 -0.65321530 -0.0288089 -1.0474319
Socrates                0.81595929 -0.5779552 -0.65321530 -0.0288089  0.6822721
Confucius               0.03472167  0.3509014 -1.29223027  0.6193914 -1.0474319
Sun Tzu                -0.74651595  0.3509014 -1.29223027 -0.6770092 -0.1825799
Julius Caesar          -0.74651595  0.3509014  0.62481464 -1.3252096  0.6822721
Alexander the Great    -0.74651595 -0.5779552  1.26382961 -1.3252096  0.6822721
Cleopatra               0.03472167 -1.5068119  0.62481464 -1.3252096  1.5471242
Joan of Arc             0.03472167  0.3509014 -0.01420033  0.6193914  0.6822721
Queen Elizabeth II     -1.52775356  2.2086147 -1.29223027 -0.0288089 -1.0474319
Princess Diana          0.03472167 -0.5779552 -0.01420033  1.2675917  0.6822721
Catherine the Great     0.03472167  0.3509014 -0.01420033 -0.6770092  0.6822721
Marie Antoinette       -0.74651595 -1.5068119  0.62481464 -1.3252096  1.5471242
Napoleon Bonaparte      0.03472167  0.3509014  1.26382961 -1.3252096  0.6822721
Abraham Lincoln         0.03472167  1.2797580 -0.65321530  1.2675917 -0.1825799
George Washington      -0.74651595  1.2797580 -0.01420033  0.6193914 -0.1825799
Thomas Jefferson        0.81595929  0.3509014 -0.65321530 -0.0288089 -0.1825799
Benjamin Franklin       1.59719691  0.3509014 -0.01420033 -0.0288089 -0.1825799
Theodore Roosevelt      0.03472167  0.3509014  1.26382961 -0.6770092  0.6822721
Franklin D. Roosevelt   0.03472167  0.3509014  0.62481464  0.6193914 -0.1825799
John F. Kennedy         0.03472167 -0.5779552  1.26382961  0.6193914 -0.1825799
Richard Nixon          -1.52775356 -0.5779552 -0.65321530 -1.3252096  1.5471242
Ronald Reagan          -0.74651595  0.3509014  0.62481464 -0.0288089 -0.1825799
Bill Clinton            0.03472167 -0.5779552  1.26382961 -0.0288089  0.6822721
Hillary Clinton         0.03472167  1.2797580 -0.01420033 -0.0288089  0.6822721
Joe Biden              -0.74651595  0.3509014 -0.01420033  0.6193914 -0.1825799
                       Cluster
Albert Einstein              1
Marie Curie                  2
Leonardo da Vinci            1
Beyoncé                      1
Taylor Swift                 1
Serena Williams              3
Cristiano Ronaldo            3
Barack Obama                 1
Angela Merkel                2
Donald Trump                 4
Elon Musk                    1
Oprah Winfrey                1
Greta Thunberg               2
Malala Yousafzai             2
Dalai Lama                   2
Steve Jobs                   1
Bill Gates                   2
Rihanna                      1
Winston Churchill            3
Adele                        1
Mahatma Gandhi               2
Nelson Mandela               2
Martin Luther King Jr.       1
John Lennon                  1
Freddie Mercury              1
Michael Jackson              5
Lady Gaga                    1
Madonna                      5
Britney Spears               5
Kanye West                   5
Taylor Lautner               3
Jennifer Lawrence            1
Scarlett Johansson           1
Angelina Jolie               5
Brad Pitt                    1
George Clooney               1
Leonardo DiCaprio            1
Tom Hanks                    2
Meryl Streep                 1
Morgan Freeman               2
Denzel Washington            2
Will Smith                   1
Chris Rock                   5
Ellen DeGeneres              1
Trevor Noah                  1
Stephen Hawking              2
Neil deGrasse Tyson          1
Mark Zuckerberg              2
Jeff Bezos                   2
Sheryl Sandberg              2
Jacinda Ardern               2
Emmanuel Macron              3
Vladimir Putin               3
Xi Jinping                   3
Kim Jong-un                  4
Volodymyr Zelenskyy          1
Pope Francis                 2
Mother Teresa                2
Florence Nightingale         2
Charles Darwin               1
Sigmund Freud                3
Carl Jung                    1
Friedrich Nietzsche          5
Immanuel Kant                2
Plato                        2
Aristotle                    2
Socrates                     1
Confucius                    2
Sun Tzu                      2
Julius Caesar                3
Alexander the Great          3
Cleopatra                    5
Joan of Arc                  1
Queen Elizabeth II           3
Princess Diana               1
Catherine the Great          3
Marie Antoinette             5
Napoleon Bonaparte           3
Abraham Lincoln              2
George Washington            2
Thomas Jefferson             1
Benjamin Franklin            1
Theodore Roosevelt           3
Franklin D. Roosevelt        1
John F. Kennedy              1
Richard Nixon                3
Ronald Reagan                3
Bill Clinton                 1
Hillary Clinton              1
Joe Biden                    3

#### Profildiagramme; 
# Code-Vorlage arbeitet mit "df", daher umbenennen
df <- big5_data_z

#### Code ab hier uninteressant

# Mittelwerte für jede Dimension pro Cluster berechnen
cluster_means <- aggregate(. ~ Cluster, data = df, FUN = mean)

# Anzahl der Cluster
num_clusters <- length(unique(df$Cluster))

# Layout für die Plots
par(mfrow = c(1, num_clusters))  # Layout festlegen für die Anzahl der Cluster

# Für jedes Cluster ein Balkendiagramm erstellen
for (i in 1:num_clusters) {
  # Daten für das aktuelle Cluster (ohne Cluster-Spalte)
  data <- as.numeric(cluster_means[i, -1])
  
  # Namen der Attribute für die x-Achse
  names(data) <- names(cluster_means)[-1]
  
  # Balkendiagramm erstellen
  barplot(
    data,
    main = paste("Cluster", cluster_means$Cluster[i]),  # Titel des Diagramms
    ylim = c(-2, 2),  # Skalierung der y-Achse
    col = "lightblue",  # Farbe der Balken
    xlab = "Attribute",  # Bezeichnung der x-Achse
    ylab = "Mittelwert",  # Bezeichnung der y-Achse
    las = 2  # Dreht die x-Achsenbeschriftungen für bessere Lesbarkeit
  )
}