Re: Clustering von kategoriellen Daten



Hallo,

sorry für die späte Antwort.

On 2005-12-29, Wolfgang Lorenz <wlorenz65@xxxxxx> wrote:
> Florian Laws wrote:
>> Das ist dann der Hamming-Abstand, oder?
>>
>> Und damit kann ich dann sinnvoll ein Verfahren wie k-Means
>> anwenden?
>
> Ich kenne zwar die Fachausdrücke nicht, aber bei
> http://fconyx.ncifcrf.gov/~lukeb/hiercl.html ist der Unterschied
> zwischen K-Means und Hierarchical Clustering erklärt. Bei K-Means legt
> man vorher fest, wieviele Cluster man haben will. Bei Hierachical
> Clustering hat man einen Abstand, und man hört mit dem Clustern auf,
> wenn dieser unter ein vorgegebenes Minimum fällt.

Ich hatte k-Means nur mal so als Beispiel genommen,
und weil es so oft mit euklidischem Abstand erklärt wird,
dass ich Vorstellungsschwierigkeiten bekomme, wie es mit anderen
Abständen funktioniert.
Immerhin gibt es ja extra Verfahren für kategorielle Daten.

Eigentlich suche sich ein Verfahren, bei dem ich nicht von vornherein
festlegen muss, wie viele Cluster ich haben möchte. Wenn das dann
ein hierarchisches Verfahren ist, um so besser.

> Wozu willst du überhaupt deine 1 Mio Datensätze clustern? Wer zwingt
> dich dazu? Und was sind das für Datensätze?

Diese Datensätze sind Kombinationen aus Verben und Nomen mit
zugehörigen grammatischen Features wie Numerus, Kasus, Genus, Tempus
usw. Ich möchte gerne Kombinationen dieser grammatischen Features,
wie sie bei bestimmen Konstruktionen immer wieder vorkommen, finden.



> Btw, den Fachausdruck "Hierarchical Clustering" finde ich schon eine
> ziemliche Frechheit. Das einzige was daran hierarchisch ist ist, dass
> man im Voraus nicht sagen kann, wie weit es wächst.

Das hierarchische daran ist doch, dass jeder Cluster wieder aus
Unter-Clustern besteht, bis hinab zu einzelnen Datensätzen.

Grüße,

Florian
.



Relevant Pages

  • Re: Write the cluster in dataset
    ... Ok, I know whats is k-means, I'm graduated and master in Statistics, and Phd ... "Roy Harvey (SQL Server MVP)" wrote: ... So I just want to create a field with the cluster group in the table that I ... The k-means algorithm is an algorithm to cluster n objects based on ...
    (microsoft.public.sqlserver.clustering)
  • Re: Backyard stargazing, TV76, 6/26/04
    ... > and was surprised to see the Milky Way even before the moon had set. ... Still the cluster itself was very pretty even though i ... > Lastly i found 6934 in Delphinus and its dim little companion stars. ... But you really need to get more sleep, Florian. ...
    (sci.astro.amateur)
  • Re: Setting cluster seeds for K-Means analysis in SPSS
    ... First do a K-means, 2 cluster, select Write final as (select Options ... Open the previously saved file, replace the data in SPSS and save. ... > I've done a heirarchical cluster analysis and decided on a 2 cluster ...
    (sci.stat.math)
  • Re: Setting cluster seeds for K-Means analysis in SPSS
    ... First do a K-means, 2 cluster, select Write final as (select Options ... Open the previously saved file, replace the data in SPSS and save. ... > I've done a heirarchical cluster analysis and decided on a 2 cluster ...
    (sci.stat.edu)
  • Re: Clustering wrong results in SQL 2005
    ... The default Expectation-Maximization algorithm, also known as soft clustering, actually assigns each case to each cluster with some probability, while K-means assigns each case to one cluster with probability 1. ... Maybe the SUPPORT in NODE_DISTRIBUTION could be helpful - I noticed it was higher than in NODE_SUPPORT but I don't know how it was calculated. ...
    (microsoft.public.sqlserver.datamining)