It is now really easy to explain expectation maximization
as a generalization of K-means.
Again, we have a couple of data points here
and 2 randomly chosen cluster centers.
But in the correspondence step instead of making a hard correspondence
we make a soft correspondence.
Each data point is attracted to a cluster center
in proportion to the posterior likelihood
which we will define in a minute.
In the adjustment step or the maximization step
the cluster centers are being optimized just like before
but now the correspondence is a soft variable
and they correspond to all data points in different strengths
not just the nearest ones.
As a result, in EM the cluster centers
tend not to move as far as in K-means.
Their movement is smooth away.
A new correspondence over here gives us different strength
as indicated by the different coloring of the links
and another relaxation step gives us better cluster centers.
And as you can see over time, gradually
the EM will then converge to about the same solution as K-means.
However, all the correspondences are still alive.
Which means there is not a 0, 1 correspondence.
There is a soft correspondence
which relates to a posterior probability, which I will explain next.
EMアルゴリズムを説明するのはとても簡単で
これはk-means法を汎用化したものです
ここにいくつかのデータ点と
ランダムなクラスタの中心があります
EMアルゴリズムは
ハードクラスタリングで分類を行わず
ソフトクラスタリングで行います
事後尤度に従って各データ点と
クラスタの中心を結びます
事後尤度は後ほど定義します
割り当ての過程または最大化の過程では
クラスタの中心は先ほどと同じように
最適化されますが
割り当ては柔軟な変数です
そして最も近いデータ点だけでなく
すべてのデータ点に異なる強さで対応します
EMアルゴリズムではクラスタの中心は
k-means法ほど大きく動かず平滑です
新たな割り当てで重みづけが変わり
赤と緑の辺に見られる変化をもたらします
より柔軟性の高いクラスタもあります
その場合は段階的に
EM法とk-means法が同じような結果に収束します
しかし割り当てはすべて有効になり
0か1に限らない柔軟なクラスタリングになります
次はこれに関係する事後確率について説明します
Teraz już łatwo wyjaśnić dlaczego maksymalizacja oczekiwania
jest uogólnieniem k-średnich.
Jak zawsze, mamy kilka punktów
oraz dwa losowo wybrane centra grupy.
Ale teraz zamiast dopasowywać bezpośrednio do któregoś z centrów
będziemy dopasowywać pośrednio.
Każdy punkt jest przyciągany do centrum
z siłą proporcjonalną do pewnego prawdopodobieństwa a posteriori,
które za chwilę zdefiniuję.
W kroku dopasowywania, lub maksymalizacji,
centra grup są optymalizowane jak poprzednio
ale przypisywanie nie jest już jednoznaczne
dane są przypisywane do wszystkich centrów z różną siłą,
nie tylko do tych najbliższych.
W związku z tym, w maksymalizacji oczekiwania centra grup
nie przemieszczają się tak daleko jak w przypadku K-średnich.
Ich ruch jest łagodniejszy
Nowe dopasowanie daje różne siły,
oznaczone tu różnymi kolorami,
a kolejne kroki relaksacji dają lepsze centra grup.
Z upływem czasu, jak widzicie, stopniowo
MO będzie zbiegał mniej więcej do takiego samego rozwiązania jak w przypadku K-średnich.
Wszystkie przypisania są jednak wciąż aktywne.
Nie ma przypisania zero - jedynkowego.
Jest ono pośrednie,
zależne od prawdopodobieństwa a posteriori, które zaraz wyjaśnię.