Biểu đồ là một mô tả trực quan về bảng phân phối tần số với các phân chia liên tục đã được nhóm lại. Một loạt các hình chữ nhật có nền bằng với khoảng cách giữa các giới hạn của lớp và các khu vực tỷ lệ với tần suất trong các lớp liên quan tạo thành biểu đồ vùng. Vì nền trong các biểu diễn như vậy kéo dài khoảng cách giữa các giới hạn của lớp, nên mọi hình chữ nhật đều liền kề. Độ cao hình chữ nhật tương quan nghịch với tần số so sánh đối với các nhóm tương tự và tương quan nghịch với mật độ tần số đối với các lớp khác
Nói cách khác, biểu đồ là một hình có các hình chữ nhật có chiều rộng bằng khoảng cách giữa các lớp và có diện tích liên quan trực tiếp đến tần số của biến
Khi nào nên sử dụng Biểu đồ?
Biểu đồ tần số được sử dụng trong các trường hợp cụ thể. Như sau
- Dữ liệu phải là định lượng
- Để kiểm tra hình thức phân phối dữ liệu, chúng tôi sử dụng biểu đồ
- Được sử dụng để xác định xem một quá trình có phát triển từ khoảng thời gian này sang khoảng thời gian tiếp theo hay không
- Được sử dụng để đánh giá liệu kết quả có khác nhau khi tham gia hai hoặc nhiều thủ tục hay không
- Được sử dụng để xác định xem quy trình được chỉ định có đáp ứng nhu cầu của khách hàng hay không
Các loại biểu đồ
Biểu đồ có thể được chia thành nhiều dạng tùy thuộc vào phân phối tần số của dữ liệu. Có nhiều cách phân phối khác nhau, bao gồm phân phối gaussian, phân phối hai phương thức, phân phối lệch, phân phối lược, phân phối đỉnh cạnh, phân phối đa phương thức, phân phối thức ăn cho chó, v.v. Biểu đồ có thể đại diện cho nhiều loại phân phối này. Các loại biểu đồ khác nhau là
- Biểu đồ thống nhất. Một phân phối thống nhất chỉ ra quá ít nhóm. Mỗi nhóm chứa cùng một số mục trong đó. Nó có thể bao gồm phân phối với nhiều đỉnh, với tất cả các đỉnh có cùng độ cao
- Biểu đồ đối xứng. Biểu đồ hình chuông là tên gọi khác của biểu đồ đối xứng. Biểu đồ được coi là đối xứng khi các cạnh đối lập có hình dạng và kích thước giống nhau nếu một đường thẳng đứng được vẽ ở giữa biểu đồ
- Biểu đồ lưỡng kim. Biểu đồ được phân loại là lưỡng cực nếu nó chứa hai đỉnh. Khi một bộ sưu tập dữ liệu chứa các quan sát về hai loại người riêng biệt hoặc các nhóm được hợp nhất và tâm của hai biểu đồ khác nhau đủ xa so với phương sai trong cả hai bộ dữ liệu, tính lưỡng cực sẽ xuất hiện
- Biểu đồ xác suất. Biểu đồ này mô tả phân phối xác suất không liên tục ở dạng hình ảnh trực quan. Một hình chữ nhật đại diện cho mọi giá trị của x. Diện tích của mọi hình chữ nhật tỷ lệ thuận với khả năng xuất hiện giá trị tương ứng
Vẽ biểu đồ bằng Matplotlib
Các thùng được định nghĩa là các phạm vi biến liên tiếp, không chồng chéo. matplotlib. pyplot. Phương thức hist[] được sử dụng để tính toán và tạo biểu đồ của biến x. Tạo các thùng của phạm vi hoàn chỉnh là giai đoạn đầu tiên trong việc tạo biểu đồ. Trong bước tiếp theo, phân phối toàn bộ phạm vi số vào chuỗi khoảng thời gian được tạo ở bước đầu tiên và đếm các giá trị rơi vào mỗi khoảng thời gian
Hãy xây dựng một biểu đồ đơn giản bằng cách sử dụng một số giá trị tùy ý. Biểu đồ đơn giản được tạo bằng mã bên dưới có một số giá trị ngẫu nhiên
Mã số
đầu ra
Sửa đổi Biểu đồ trong Matplotlib
Nhiều kỹ thuật có sẵn trong Matplotlib để cá nhân hóa biểu đồ. matplotlib. pyplot. phương thức hist[] cung cấp nhiều thuộc tính mà chúng ta có thể sử dụng để tùy chỉnh biểu đồ. Phương thức hist[] cung cấp một đối tượng bản vá cung cấp khả năng truy cập vào các thuộc tính của đối tượng được tạo, cho phép chúng tôi thay đổi biểu đồ khi chúng tôi thấy phù hợp
Mã số
đầu ra
Biểu đồ được tạo ở trên được sửa đổi bằng mã bên dưới để có chế độ xem rõ ràng hơn và số đọc chính xác hơn
Nếu bins là một int, nó xác định số lượng thùng có chiều rộng bằng nhau trong phạm vi đã cho [10, theo mặc định]. Nếu các thùng là một chuỗi, thì nó xác định một mảng tăng dần các cạnh của thùng, bao gồm cả cạnh ngoài cùng bên phải, cho phép độ rộng của các thùng không đồng nhất
Mới trong phiên bản 1. 11. 0
Nếu bins là một chuỗi, nó xác định phương pháp được sử dụng để tính chiều rộng thùng tối ưu, như được xác định bởi histogram_bin_edges
Phạm vi dưới và trên của thùng. Nếu không được cung cấp, phạm vi chỉ đơn giản là [a.min[], a.max[]]
. Các giá trị bên ngoài phạm vi được bỏ qua. Phần tử đầu tiên của phạm vi phải nhỏ hơn hoặc bằng phần tử thứ hai. phạm vi cũng ảnh hưởng đến tính toán thùng tự động. Mặc dù chiều rộng thùng được tính là tối ưu dựa trên dữ liệu thực tế trong phạm vi, nhưng số lượng thùng sẽ lấp đầy toàn bộ phạm vi bao gồm cả các phần không chứa dữ liệu
Một mảng các trọng số, có hình dạng giống như một. Mỗi giá trị trong a chỉ đóng góp trọng số liên quan của nó vào số lượng thùng [thay vì 1]. Nếu mật độ là True, các trọng số được chuẩn hóa, do đó tích phân của mật độ trong phạm vi vẫn là 1
mật độ bool, tùy chọnNếu False
, kết quả sẽ chứa số lượng mẫu trong mỗi ngăn. Nếu
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]0, kết quả là giá trị của hàm mật độ xác suất tại thùng, được chuẩn hóa sao cho tích phân trên phạm vi là 1. Lưu ý rằng tổng các giá trị biểu đồ sẽ không bằng 1 trừ khi chọn các ngăn có chiều rộng thống nhất; Trả về . lịch sử mảng
Các giá trị của biểu đồ. Xem mật độ và trọng số để biết mô tả về ngữ nghĩa có thể
bin_edges mảng dtype floatTrả lại các cạnh của thùng
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]1
Xem thêm
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]2,
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]0,
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]1,
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]2,
histogram_bin_edges
ghi chú
Tất cả, trừ thùng cuối cùng [ngoài cùng bên phải] đang mở một nửa. Nói cách khác, nếu thùng là
[1, 2, 3, 4]
thì thùng thứ nhất là
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]4 [bao gồm 1, nhưng loại trừ 2] và thùng thứ hai là
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]5. Tuy nhiên, thùng cuối cùng là
>>> np.histogram[[1, 2, 1], bins=[0, 1, 2, 3]] [array[[0, 2, 1]], array[[0, 1, 2, 3]]] >>> np.histogram[np.arange[4], bins=np.arange[5], density=True] [array[[0.25, 0.25, 0.25, 0.25]], array[[0, 1, 2, 3, 4]]] >>> np.histogram[[[1, 2, 1], [1, 0, 1]], bins=[0,1,2,3]] [array[[1, 4, 1]], array[[0, 1, 2, 3]]]6, bao gồm 4