Re: Clustering von kategoriellen Daten
- From: Florian Laws <fl-usenet-2004@xxxxxxxxxxxxxxx>
- Date: Thu, 5 Jan 2006 11:39:25 +0000 (UTC)
Hallo,
sorry für die späte Antwort.
On 2005-12-29, Wolfgang Lorenz <wlorenz65@xxxxxx> wrote:
> Florian Laws wrote:
>> Das ist dann der Hamming-Abstand, oder?
>>
>> Und damit kann ich dann sinnvoll ein Verfahren wie k-Means
>> anwenden?
>
> Ich kenne zwar die Fachausdrücke nicht, aber bei
> http://fconyx.ncifcrf.gov/~lukeb/hiercl.html ist der Unterschied
> zwischen K-Means und Hierarchical Clustering erklärt. Bei K-Means legt
> man vorher fest, wieviele Cluster man haben will. Bei Hierachical
> Clustering hat man einen Abstand, und man hört mit dem Clustern auf,
> wenn dieser unter ein vorgegebenes Minimum fällt.
Ich hatte k-Means nur mal so als Beispiel genommen,
und weil es so oft mit euklidischem Abstand erklärt wird,
dass ich Vorstellungsschwierigkeiten bekomme, wie es mit anderen
Abständen funktioniert.
Immerhin gibt es ja extra Verfahren für kategorielle Daten.
Eigentlich suche sich ein Verfahren, bei dem ich nicht von vornherein
festlegen muss, wie viele Cluster ich haben möchte. Wenn das dann
ein hierarchisches Verfahren ist, um so besser.
> Wozu willst du überhaupt deine 1 Mio Datensätze clustern? Wer zwingt
> dich dazu? Und was sind das für Datensätze?
Diese Datensätze sind Kombinationen aus Verben und Nomen mit
zugehörigen grammatischen Features wie Numerus, Kasus, Genus, Tempus
usw. Ich möchte gerne Kombinationen dieser grammatischen Features,
wie sie bei bestimmen Konstruktionen immer wieder vorkommen, finden.
> Btw, den Fachausdruck "Hierarchical Clustering" finde ich schon eine
> ziemliche Frechheit. Das einzige was daran hierarchisch ist ist, dass
> man im Voraus nicht sagen kann, wie weit es wächst.
Das hierarchische daran ist doch, dass jeder Cluster wieder aus
Unter-Clustern besteht, bis hinab zu einzelnen Datensätzen.
Grüße,
Florian
.
- Follow-Ups:
- Re: Clustering von kategoriellen Daten
- From: Wolfgang Lorenz
- Re: Clustering von kategoriellen Daten
- Prev by Date: Re: Integration zwischen neuronalem und symbolischem Lernen?
- Next by Date: Re: Clustering von kategoriellen Daten
- Previous by thread: Re: Integration zwischen neuronalem und symbolischem Lernen?
- Next by thread: Re: Clustering von kategoriellen Daten
- Index(es):
Relevant Pages
|