Là phần cuối cùng để xử lý dữ liệu viêm của chúng tôi, chúng tôi cần một cách để có được danh sách tất cả các tệp trong thư mục
print[glob.glob['inflammation*.csv']]
1 của chúng tôi có tên bắt đầu bằng print[glob.glob['inflammation*.csv']]
2 và kết thúc bằng print[glob.glob['inflammation*.csv']]
3. Thư viện sau đây sẽ giúp chúng ta đạt được điều nàyimport glob
Thư viện
print[glob.glob['inflammation*.csv']]
4 chứa một hàm, còn được gọi là print[glob.glob['inflammation*.csv']]
4, tìm các tệp và thư mục có tên khớp với một mẫu. Chúng tôi cung cấp các mẫu đó dưới dạng chuỗi. ký tự print[glob.glob['inflammation*.csv']]
6 khớp với 0 hoặc nhiều ký tự, trong khi print[glob.glob['inflammation*.csv']]
7 khớp với bất kỳ ký tự nào. Chúng tôi có thể sử dụng điều này để lấy tên của tất cả các tệp CSV trong thư mục hiện tạiprint[glob.glob['inflammation*.csv']]
['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
Như những ví dụ này cho thấy, kết quả của
print[glob.glob['inflammation*.csv']]
8 là một danh sách các đường dẫn tệp và thư mục theo thứ tự tùy ý. Điều này có nghĩa là chúng ta có thể lặp lại nó để làm điều gì đó với từng tên tệp. Trong trường hợp của chúng tôi, “điều gì đó” mà chúng tôi muốn làm là tạo một tập hợp các ô cho từng tệp trong tập dữ liệu về tình trạng viêm nhiễm của chúng tôiNếu chúng ta muốn bắt đầu bằng cách chỉ phân tích ba tệp đầu tiên theo thứ tự bảng chữ cái, chúng ta có thể sử dụng hàm tích hợp sẵn
print[glob.glob['inflammation*.csv']]
9 để tạo danh sách được sắp xếp mới từ đầu ra print[glob.glob['inflammation*.csv']]
8print[glob.glob['inflammation*.csv']]
3print[glob.glob['inflammation*.csv']]
4print[glob.glob['inflammation*.csv']]
5print[glob.glob['inflammation*.csv']]
6Các biểu đồ được tạo cho tệp thử nghiệm lâm sàng thứ hai trông rất giống với các biểu đồ cho tệp đầu tiên. các biểu đồ trung bình của chúng cho thấy các mức tăng và giảm “ồn ào” tương tự nhau;
Tập dữ liệu thứ ba hiển thị các biểu đồ trung bình và cực đại ồn ào hơn nhiều, ít đáng ngờ hơn nhiều so với hai tập dữ liệu đầu tiên, tuy nhiên, biểu đồ cực tiểu cho thấy rằng cực tiểu của tập dữ liệu thứ ba luôn bằng 0 trong mỗi ngày của thử nghiệm. Nếu chúng tôi tạo bản đồ nhiệt cho tệp dữ liệu thứ ba, chúng tôi sẽ thấy như sau
Chúng ta có thể thấy rằng không có giá trị nào được phân bổ rải rác trên tất cả các bệnh nhân và số ngày của thử nghiệm lâm sàng, cho thấy rằng có các vấn đề tiềm ẩn với việc thu thập dữ liệu trong suốt quá trình thử nghiệm. Ngoài ra, chúng ta có thể thấy rằng bệnh nhân cuối cùng trong nghiên cứu không có bất kỳ đợt bùng phát viêm nào trong suốt quá trình thử nghiệm, cho thấy rằng họ thậm chí có thể không bị viêm khớp.
Vẽ sự khác biệt
Vẽ sự khác biệt giữa các đợt viêm trung bình được báo cáo trong tập dữ liệu thứ nhất và thứ hai [tương ứng được lưu trữ trong
1 và['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv', 'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv', 'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
2], i. e. , sự khác biệt giữa các ô ngoài cùng bên trái của hai hình đầu tiên['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv', 'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv', 'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
Dung dịch
9print[glob.glob['inflammation*.csv']]
Tạo thống kê tổng hợp
Sử dụng từng tệp một lần để tạo tập dữ liệu chứa các giá trị trung bình cho tất cả bệnh nhân
0print[glob.glob['inflammation*.csv']]
Sau đó, sử dụng pyplot để tạo trung bình, tối đa và tối thiểu cho tất cả bệnh nhân
Dung dịch
1print[glob.glob['inflammation*.csv']]
Sau khi dành thời gian nghiên cứu bản đồ nhiệt và sơ đồ thống kê, cũng như thực hiện các bài tập trên để vẽ sự khác biệt giữa các bộ dữ liệu và để tạo số liệu thống kê bệnh nhân tổng hợp, chúng tôi hiểu rõ hơn về mười hai bộ dữ liệu thử nghiệm lâm sàng
Các bộ dữ liệu dường như rơi vào hai loại
- bộ dữ liệu dường như “lý tưởng” phù hợp xuất sắc với Tiến sĩ. Tuyên bố của Maverick, nhưng hiển thị các giá trị cực đại và cực tiểu đáng ngờ [chẳng hạn như
1 và['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv', 'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv', 'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
2]['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv', 'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv', 'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
- bộ dữ liệu “ồn ào” phần nào đồng ý với Tiến sĩ. tuyên bố của Maverick, nhưng cho thấy các vấn đề liên quan đến thu thập dữ liệu như các giá trị bị thiếu lẻ tẻ và thậm chí là một ứng cử viên không phù hợp để đưa nó vào thử nghiệm lâm sàng
Trên thực tế, có vẻ như cả ba bộ dữ liệu “noisy” [
['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
5, ['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
6 và ['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
7] giống hệt nhau cho đến giá trị cuối cùng. Được trang bị thông tin này, chúng tôi đối mặt với Dr. Maverick về dữ liệu đáng ngờ và các tệp trùng lặpTiến sĩ. Maverick thú nhận rằng họ đã ngụy tạo dữ liệu lâm sàng sau khi phát hiện ra rằng thử nghiệm ban đầu gặp phải một số vấn đề, bao gồm việc ghi dữ liệu không đáng tin cậy và lựa chọn người tham gia kém. Họ đã tạo dữ liệu giả để chứng minh thuốc của họ có tác dụng và khi chúng tôi yêu cầu thêm dữ liệu, họ đã cố gắng tạo nhiều bộ dữ liệu giả hơn, cũng như ném vào bộ dữ liệu chất lượng kém ban đầu một vài lần để thử và làm cho tất cả các thử nghiệm có vẻ nhiều hơn một chút
Xin chúc mừng. Chúng tôi đã điều tra dữ liệu về tình trạng viêm và chứng minh rằng các bộ dữ liệu đã được tạo tổng hợp
Nhưng sẽ thật đáng tiếc nếu vứt bỏ các bộ dữ liệu tổng hợp đã dạy chúng ta rất nhiều điều, vì vậy chúng ta sẽ tha thứ cho Tiến sĩ tưởng tượng. Maverick và tiếp tục sử dụng dữ liệu để học cách lập trình
Những điểm chính
Sử dụng
8 để tạo danh sách các tệp có tên khớp với mẫu['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv', 'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv', 'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
Sử dụng
6 trong một mẫu để khớp với 0 hoặc nhiều ký tự vàprint[glob.glob['inflammation*.csv']]
7 để khớp với bất kỳ ký tự đơn nàoprint[glob.glob['inflammation*.csv']]