肘の方法(クラスタリング) - 百科事典
クラスタ分析において、肘関節法はデータセット内のクラスタの数を決定するためのヒューリスティックです。この方法は、クラスタの数を変数として説明変化をプロットし、曲線の肘をクラスタの数として選択することで構成されています。同じ方法は、データセットを説明するための主成分の数など、他のデータ駆動モデルのパラメータの数を選択するために使用できます。
この方法は、1953年にロバート・L・スーサークに帰せられる推測に基づいています。
直感
「肘」または「曲線の膝」を閾値点として選択することは、数学的最適化における一般的なヒューリスティックであり、減少する報酬が追加のコストに見合わないポイントを選択します。クラスタリングにおいては、追加のクラスタがデータのモデル化に大きな改善をもたらさないクラスタの数を選択することを意味します。
直感としては、クラスタの数を増やすと自然にフィット(変化の説明)が改善される(より多くの変数(より多くのクラスタ)を使用するため)が、ある時点でこれは過剰適合となり、肘がこれを反映するという考え方です。例えば、実際にはkラベル付きのグループからなるデータ(例えば、ノイズでサンプリングされたkポイント)に対して、k以上のクラスタでクラスタリングを行うと、より多くの変化を「説明」します(より小さくて緊密なクラスタを使用できるため)、しかしこれは過剰適合であり、ラベル付きのグループを複数のクラスタに分割しています。考え方は、最初のクラスタが多くの情報を追加(多くの変化を説明)するのは、データが実際にその多くのグループからなるため(これらのクラスタが必要なため)、クラスタの数がデータ内の実際のグループの数を超えると、追加された情報が急激に減少するというものです:kまで急速に増加する(欠適合領域)そしてk以降は緩やかに増加する(過適合領域)。
批判
肘関節法は主観的で信頼性に問題があるとされています。
多くの実際の応用において、「肘」の選択は非常に曖昧であり、プロットには鮮明な肘が含まれていません。
他のデータセット内のクラスタの数を決定するための方法(その記事に記載されているもの)がすべてクラスタの数に同意している場合でも、これが真実です。
一貫してランダムなデータ(意味のあるクラスタがない場合)に対しても、曲線はk(クラスタの数のパラメータ)の比に従って約従います。これにより、ユーザーは誤って「最適」なクラスタの数を選択する「肘」を見つけることができます。
クラスタの数と残存の変数という二つの軸には意味的な関係がなく、 various attempt to capture the elbow by "slope" は定義が不明でパラメータ範囲に敏感です。最大クラスタの数を増やすと、感知される「肘」の場所が変わることがあります。多くの場合、分散率基準や平均シルエット幅などの他のヒューリスティックがより信頼性があるとされていますが、それでも結果はデータの前処理(特徴選択とスケーリング)に大きく依存し、ユーザーは同じデータに対して非常に異なるクラスタリング結果を得ることがあります。
変化の測定
肘関節法には「説明変化」の様々な測定があります。最も一般的には、分散を変数として変化を量化し、使用される比はグループ間の分散と総分散の比です。または、グループ間の分散とグループ内の分散の比を使用し、これが一元ANOVAのF統計量です。
参考文献
データセット内のクラスタの数の決定
スクリープロット