Hướng dẫn how do you use agglomerative clustering in python? - làm thế nào để bạn sử dụng kết hợp cụm trong python?

classsklearn.cluster.agglomerativeclustering (n_cluster = 2, *, ái lực = 'euclidean', bộ nhớ = none, kết nối = none, compute_full_tree = 'auto'sklearn.cluster.AgglomerativeClustering(n_clusters=2, *, affinity='euclidean', memory=None, connectivity=None, compute_full_tree='auto', linkage='ward', distance_threshold=None, compute_distances=False)[source]

Phân cụm kết tụ.

Sao hợp lại cặp cụm dữ liệu mẫu; Sử dụng khoảng cách liên kết.

Đọc thêm trong Hướng dẫn sử dụng.User Guide.

Tham số: n_clustersint hoặc none, mặc định = 2:n_clustersint or None, default=2

Số lượng cụm để tìm. Phải là None nếu distance_threshold không phải là None.

ái lực hoặc có thể gọi được, mặc định = xông Euclideanstr or callable, default=’euclidean’

Số liệu được sử dụng để tính toán liên kết. Có thể là người Euclide, người khác, L1, L2, L2 ,, Nếu liên kết là phường Ward Ward, thì chỉ có Euclidean được chấp nhận. Nếu có tính hợp đồng với nhau, một ma trận khoảng cách (thay vì ma trận tương tự) là đầu vào cho phương thức phù hợp.

bộ nhớ hoặc đối tượng với giao diện joblib.memory, default = nonestr or object with the joblib.Memory interface, default=None

Được sử dụng để lưu trữ đầu ra của tính toán của cây. Theo mặc định, không có bộ nhớ đệm được thực hiện. Nếu một chuỗi được đưa ra, đó là đường dẫn đến thư mục bộ đệm.

ConnectivityArray-giống như hoặc có thể gọi được, mặc định = khôngarray-like or callable, default=None

Ma trận kết nối. Xác định cho mỗi mẫu các mẫu lân cận theo một cấu trúc nhất định của dữ liệu. Đây có thể là một ma trận kết nối hoặc một mức độ có thể gọi được chuyển đổi dữ liệu thành một ma trận kết nối, chẳng hạn như có nguồn gốc từ kneighbors_graph. Mặc định là None, tức là thuật toán phân cụm phân cấp là không cấu trúc.

compute_full_tree‘auto, hoặc bool, mặc định =‘auto’ or bool, default=’auto’

Dừng sớm việc xây dựng cây tại n_clusters. Điều này rất hữu ích để giảm thời gian tính toán nếu số lượng cụm không nhỏ so với số lượng mẫu. Tùy chọn này chỉ hữu ích khi chỉ định ma trận kết nối. Cũng lưu ý rằng khi thay đổi số lượng cụm và sử dụng bộ nhớ đệm, có thể thuận lợi để tính toán cây đầy đủ. Phải là True nếu distance_threshold không phải là None. Theo mặc định, ____10 là Auto Auto, tương đương với True khi distance_threshold không phải là None hoặc n_clusters kém hơn tối đa từ 100 hoặc None5. Mặt khác, tự động tự động tương đương với None6.

Liên kết {‘phường,’ hoàn chỉnh, ’trung bình,’ đơn lẻ}, mặc định ={‘ward’, ‘complete’, ‘average’, ‘single’}, default=’ward’

Tiêu chí liên kết nào để sử dụng. Tiêu chí liên kết xác định khoảng cách sử dụng giữa các bộ quan sát. Thuật toán sẽ hợp nhất các cặp cụm giảm thiểu tiêu chí này.

  • Ward Ward giảm thiểu phương sai của các cụm được hợp nhất.

  • Trung bình sử dụng trung bình của khoảng cách của mỗi quan sát của hai bộ.

  • ’Hoàn thành liên kết hoặc‘ tối đa, sử dụng khoảng cách tối đa giữa tất cả các quan sát của hai bộ.

  • Độc thân sử dụng tối thiểu khoảng cách giữa tất cả các quan sát của hai bộ.

Mới trong phiên bản 0.20: Đã thêm tùy chọn ‘Single SingleAdded the ‘single’ option

distcent_thresholdFloat, mặc định = không cófloat, default=None

Ngưỡng khoảng cách liên kết trên đó, các cụm sẽ không được hợp nhất. Nếu không None, n_clusters phải là NoneNone0 phải là True.

Mới trong phiên bản 0.21.

compute_distancesbool, mặc định = falsebool, default=False

Tính toán khoảng cách giữa các cụm ngay cả khi distance_threshold không được sử dụng. Điều này có thể được sử dụng để làm cho trực quan hóa dendrogram, nhưng giới thiệu một chi phí tính toán và bộ nhớ.

Mới trong phiên bản 0.24.

Attributes:n_clusters_int:n_clusters_int

Số lượng cụm được tìm thấy bởi thuật toán. Nếu distance_threshold3, nó sẽ bằng với n_clusters đã cho.

Labels_ndarray của hình dạng (n_samples)ndarray of shape (n_samples)

Nhãn cụm cho mỗi điểm.

n_leaves_intint

Số lượng lá trong cây phân cấp.

n_connected_components_intint

Số lượng các thành phần được kết nối trong biểu đồ.

Mới trong phiên bản 0.21: distance_threshold5 đã được thêm vào để thay thế distance_threshold6.distance_threshold5 was added to replace distance_threshold6.

n_features_in_intint

Số lượng các tính năng nhìn thấy trong quá trình phù hợp.fit.

Mới trong phiên bản 0.24.

Số lượng cụm được tìm thấy bởi thuật toán. Nếu distance_threshold3, nó sẽ bằng với n_clusters đã cho.ndarray of shape (distance_threshold7,)

Labels_ndarray của hình dạng (n_samples)fit. Defined only when distance_threshold8 has feature names that are all strings.

Nhãn cụm cho mỗi điểm.

Số lượng lá trong cây phân cấp.array-like of shape (n_samples-1, 2)

Số lượng các thành phần được kết nối trong biểu đồ.

Mới trong phiên bản 0.21: distance_threshold5 đã được thêm vào để thay thế distance_threshold6.array-like of shape (n_nodes-1,)

Số lượng các tính năng nhìn thấy trong quá trình phù hợp.

tính năng_names_in_ndarray của hình dạng (distance_threshold7,)

>>> from sklearn.cluster import AgglomerativeClustering
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [4, 2], [4, 4], [4, 0]])
>>> clustering = AgglomerativeClustering().fit(X)
>>> clustering
AgglomerativeClustering()
>>> clustering.labels_
array([1, 1, 1, 0, 0, 0])

Tên của các tính năng nhìn thấy trong quá trình phù hợp. Chỉ được xác định khi distance_threshold8 có tên tính năng là tất cả các chuỗi.

None8(X[, y])

Mới trong phiên bản 1.0.

None9(X[, y])

Children_array giống như hình dạng (N_Samples-1, 2)

kneighbors_graph0([deep])

Nhận tham số cho công cụ ước tính này.

kneighbors_graph1(**params)

Đặt các tham số của công cụ ước tính này.

phù hợp (x, y = none) [nguồn] ¶(X, y=None)[source]

Phù hợp với phân cụm phân cấp từ các tính năng hoặc ma trận khoảng cách.

Các tham số: Xarray giống như, hình dạng (n_samples, n_features) hoặc (n_samples, n_samples):Xarray-like, shape (n_samples, n_features) or (n_samples, n_samples)

Các trường hợp đào tạo đến cụm, hoặc khoảng cách giữa các trường hợp nếu kneighbors_graph2.

yignoredIgnored

Không được sử dụng, có mặt ở đây cho tính nhất quán API theo quy ước.

Returns:selfobject:selfobject

Trả về các trường hợp được trang bị.

fit_predict (x, y = none) [nguồn] ¶(X, y=None)[source]

Phù hợp và trả về kết quả của mỗi bài tập phân cụm mẫu.

Ngoài việc phù hợp, phương pháp này cũng trả về kết quả của gán phân cụm cho mỗi mẫu trong tập huấn luyện.

Tham số: Xarray giống như hình dạng (n_samples, n_features) hoặc (n_samples, n_samples):Xarray-like of shape (n_samples, n_features) or (n_samples, n_samples)

Các trường hợp đào tạo đến cụm, hoặc khoảng cách giữa các trường hợp nếu kneighbors_graph2.

yignoredIgnored

Không được sử dụng, có mặt ở đây cho tính nhất quán API theo quy ước.

Trả về các trường hợp được trang bị.:labelsndarray of shape (n_samples,)

fit_predict (x, y = none) [nguồn] ¶

Phù hợp và trả về kết quả của mỗi bài tập phân cụm mẫu.(deep=True)[source]

Nhận tham số cho công cụ ước tính này.

Ngoài việc phù hợp, phương pháp này cũng trả về kết quả của gán phân cụm cho mỗi mẫu trong tập huấn luyện.:deepbool, default=True

Tham số: Xarray giống như hình dạng (n_samples, n_features) hoặc (n_samples, n_samples)

Returns:paramsdict: paramsdict

Trả về: LabelSndArray của hình dạng (n_samples,)

Nhãn cụm.(**params)[source]

Đặt các tham số của công cụ ước tính này.

get_params (sâu = true) [nguồn] ¶

Parameters:**paramsdict:**paramsdict

Tham số: DeepBool, Default = true

Nếu đúng, sẽ trả về các tham số cho công cụ ước tính này và chứa các tiểu mục là công cụ ước tính.:selfestimator instance

Tên tham số được ánh xạ tới giá trị của chúng.

set_params (** params) [nguồn] ¶

Làm thế nào để bạn vẽ các cụm kết tụ trong Python?

Ở cấp 1, lưu ý rằng sẽ có 5 cụm ...
# # Tạo các cụm bằng cách sử dụng phân cụm phân cấp kết tụ ..
# AGC = AgglomerativeClustering (N_Clusters = 5).
plt.figure (figsize = (8, 8)) ....
plt.title ("Các cụm phân cấp kết tụ - sơ đồ phân tán", fontsize = 18).

Phân cụm kết tụ trong Python là gì?

Chúng tôi sẽ sử dụng phân cụm kết tụ, một loại phân cụm phân cấp theo cách tiếp cận từ dưới lên.Chúng tôi bắt đầu bằng cách coi từng điểm dữ liệu là cụm riêng của nó.Sau đó, chúng tôi tham gia các cụm với nhau có khoảng cách ngắn nhất giữa chúng để tạo ra các cụm lớn hơn.a type of hierarchical clustering that follows a bottom up approach. We begin by treating each data point as its own cluster. Then, we join clusters together that have the shortest distance between them to create larger clusters.

Làm thế nào là cụm kết tụ được sử dụng?

Bước mà cụm kết tụ là:..
Mỗi điểm dữ liệu được gán thành một cụm duy nhất ..
Xác định phép đo khoảng cách và tính toán ma trận khoảng cách ..
Xác định các tiêu chí liên kết để hợp nhất các cụm ..
Cập nhật ma trận khoảng cách ..
Lặp lại quy trình cho đến khi mọi điểm dữ liệu trở thành một cụm ..

Làm thế nào để bạn sử dụng phân cụm phân cấp trong Python?

Các bước để thực hiện phân cụm phân cấp kết tụ..
Khi bắt đầu, coi từng điểm dữ liệu là một cụm.....
Tạo thành một cụm bằng cách tham gia hai điểm dữ liệu gần nhất dẫn đến các cụm K-1 ..
Tạo thành nhiều cụm bằng cách tham gia hai cụm gần nhất dẫn đến các cụm K-2 ..