Cách chọn nhiều tệp trong python
Là phần cuối cùng để xử lý dữ liệu viêm của chúng tôi, chúng tôi cần một cách để có được danh sách tất cả các tệp trong thư mục 1 của chúng tôi có tên bắt đầu bằng 2 và kết thúc bằng 3. Thư viện sau đây sẽ giúp chúng ta đạt được điều này
Thư viện 4 chứa một hàm, còn được gọi là 4, tìm các tệp và thư mục có tên khớp với một mẫu. Chúng tôi cung cấp các mẫu đó dưới dạng chuỗi. ký tự 6 khớp với 0 hoặc nhiều ký tự, trong khi 7 khớp với bất kỳ ký tự nào. Chúng tôi có thể sử dụng điều này để lấy tên của tất cả các tệp CSV trong thư mục hiện tại
Như những ví dụ này cho thấy, kết quả của 8 là một danh sách các đường dẫn tệp và thư mục theo thứ tự tùy ý. Điều này có nghĩa là chúng ta có thể lặp lại nó để làm điều gì đó với từng tên tệp. Trong trường hợp của chúng tôi, “điều gì đó” mà chúng tôi muốn làm là tạo một tập hợp các ô cho từng tệp trong tập dữ liệu về tình trạng viêm nhiễm của chúng tôiNếu chúng ta muốn bắt đầu bằng cách chỉ phân tích ba tệp đầu tiên theo thứ tự bảng chữ cái, chúng ta có thể sử dụng hàm tích hợp sẵn 9 để tạo danh sách được sắp xếp mới từ đầu ra 8 3 4 5 6Các biểu đồ được tạo cho tệp thử nghiệm lâm sàng thứ hai trông rất giống với các biểu đồ cho tệp đầu tiên. các biểu đồ trung bình của chúng cho thấy các mức tăng và giảm “ồn ào” tương tự nhau; Tập dữ liệu thứ ba hiển thị các biểu đồ trung bình và cực đại ồn ào hơn nhiều, ít đáng ngờ hơn nhiều so với hai tập dữ liệu đầu tiên, tuy nhiên, biểu đồ cực tiểu cho thấy rằng cực tiểu của tập dữ liệu thứ ba luôn bằng 0 trong mỗi ngày của thử nghiệm. Nếu chúng tôi tạo bản đồ nhiệt cho tệp dữ liệu thứ ba, chúng tôi sẽ thấy như sau Chúng ta có thể thấy rằng không có giá trị nào được phân bổ rải rác trên tất cả các bệnh nhân và số ngày của thử nghiệm lâm sàng, cho thấy rằng có các vấn đề tiềm ẩn với việc thu thập dữ liệu trong suốt quá trình thử nghiệm. Ngoài ra, chúng ta có thể thấy rằng bệnh nhân cuối cùng trong nghiên cứu không có bất kỳ đợt bùng phát viêm nào trong suốt quá trình thử nghiệm, cho thấy rằng họ thậm chí có thể không bị viêm khớp.
Sau khi dành thời gian nghiên cứu bản đồ nhiệt và sơ đồ thống kê, cũng như thực hiện các bài tập trên để vẽ sự khác biệt giữa các bộ dữ liệu và để tạo số liệu thống kê bệnh nhân tổng hợp, chúng tôi hiểu rõ hơn về mười hai bộ dữ liệu thử nghiệm lâm sàng Các bộ dữ liệu dường như rơi vào hai loại
Trên thực tế, có vẻ như cả ba bộ dữ liệu “noisy” ( 5, 6 và 7) giống hệt nhau cho đến giá trị cuối cùng. Được trang bị thông tin này, chúng tôi đối mặt với Dr. Maverick về dữ liệu đáng ngờ và các tệp trùng lặpTiến sĩ. Maverick thú nhận rằng họ đã ngụy tạo dữ liệu lâm sàng sau khi phát hiện ra rằng thử nghiệm ban đầu gặp phải một số vấn đề, bao gồm việc ghi dữ liệu không đáng tin cậy và lựa chọn người tham gia kém. Họ đã tạo dữ liệu giả để chứng minh thuốc của họ có tác dụng và khi chúng tôi yêu cầu thêm dữ liệu, họ đã cố gắng tạo nhiều bộ dữ liệu giả hơn, cũng như ném vào bộ dữ liệu chất lượng kém ban đầu một vài lần để thử và làm cho tất cả các thử nghiệm có vẻ nhiều hơn một chút Xin chúc mừng. Chúng tôi đã điều tra dữ liệu về tình trạng viêm và chứng minh rằng các bộ dữ liệu đã được tạo tổng hợp Nhưng sẽ thật đáng tiếc nếu vứt bỏ các bộ dữ liệu tổng hợp đã dạy chúng ta rất nhiều điều, vì vậy chúng ta sẽ tha thứ cho Tiến sĩ tưởng tượng. Maverick và tiếp tục sử dụng dữ liệu để học cách lập trình
|