Cách chọn nhiều tệp trong python

Là phần cuối cùng để xử lý dữ liệu viêm của chúng tôi, chúng tôi cần một cách để có được danh sách tất cả các tệp trong thư mục

print[glob.glob['inflammation*.csv']]
1 của chúng tôi có tên bắt đầu bằng
print[glob.glob['inflammation*.csv']]
2 và kết thúc bằng
print[glob.glob['inflammation*.csv']]
3. Thư viện sau đây sẽ giúp chúng ta đạt được điều này

import glob

Thư viện

print[glob.glob['inflammation*.csv']]
4 chứa một hàm, còn được gọi là
print[glob.glob['inflammation*.csv']]
4, tìm các tệp và thư mục có tên khớp với một mẫu. Chúng tôi cung cấp các mẫu đó dưới dạng chuỗi. ký tự
print[glob.glob['inflammation*.csv']]
6 khớp với 0 hoặc nhiều ký tự, trong khi
print[glob.glob['inflammation*.csv']]
7 khớp với bất kỳ ký tự nào. Chúng tôi có thể sử dụng điều này để lấy tên của tất cả các tệp CSV trong thư mục hiện tại

print[glob.glob['inflammation*.csv']]

['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']

Như những ví dụ này cho thấy, kết quả của

print[glob.glob['inflammation*.csv']]
8 là một danh sách các đường dẫn tệp và thư mục theo thứ tự tùy ý. Điều này có nghĩa là chúng ta có thể lặp lại nó để làm điều gì đó với từng tên tệp. Trong trường hợp của chúng tôi, “điều gì đó” mà chúng tôi muốn làm là tạo một tập hợp các ô cho từng tệp trong tập dữ liệu về tình trạng viêm nhiễm của chúng tôi

Nếu chúng ta muốn bắt đầu bằng cách chỉ phân tích ba tệp đầu tiên theo thứ tự bảng chữ cái, chúng ta có thể sử dụng hàm tích hợp sẵn

print[glob.glob['inflammation*.csv']]
9 để tạo danh sách được sắp xếp mới từ đầu ra
print[glob.glob['inflammation*.csv']]
8

print[glob.glob['inflammation*.csv']]
3

print[glob.glob['inflammation*.csv']]
4

print[glob.glob['inflammation*.csv']]
5

print[glob.glob['inflammation*.csv']]
6

Các biểu đồ được tạo cho tệp thử nghiệm lâm sàng thứ hai trông rất giống với các biểu đồ cho tệp đầu tiên. các biểu đồ trung bình của chúng cho thấy các mức tăng và giảm “ồn ào” tương tự nhau;

Tập dữ liệu thứ ba hiển thị các biểu đồ trung bình và cực đại ồn ào hơn nhiều, ít đáng ngờ hơn nhiều so với hai tập dữ liệu đầu tiên, tuy nhiên, biểu đồ cực tiểu cho thấy rằng cực tiểu của tập dữ liệu thứ ba luôn bằng 0 trong mỗi ngày của thử nghiệm. Nếu chúng tôi tạo bản đồ nhiệt cho tệp dữ liệu thứ ba, chúng tôi sẽ thấy như sau

Chúng ta có thể thấy rằng không có giá trị nào được phân bổ rải rác trên tất cả các bệnh nhân và số ngày của thử nghiệm lâm sàng, cho thấy rằng có các vấn đề tiềm ẩn với việc thu thập dữ liệu trong suốt quá trình thử nghiệm. Ngoài ra, chúng ta có thể thấy rằng bệnh nhân cuối cùng trong nghiên cứu không có bất kỳ đợt bùng phát viêm nào trong suốt quá trình thử nghiệm, cho thấy rằng họ thậm chí có thể không bị viêm khớp.

Vẽ sự khác biệt

Vẽ sự khác biệt giữa các đợt viêm trung bình được báo cáo trong tập dữ liệu thứ nhất và thứ hai [tương ứng được lưu trữ trong

['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
1 và
['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
2], i. e. , sự khác biệt giữa các ô ngoài cùng bên trái của hai hình đầu tiên

Dung dịch

print[glob.glob['inflammation*.csv']]
9

Tạo thống kê tổng hợp

Sử dụng từng tệp một lần để tạo tập dữ liệu chứa các giá trị trung bình cho tất cả bệnh nhân

print[glob.glob['inflammation*.csv']]
0

Sau đó, sử dụng pyplot để tạo trung bình, tối đa và tối thiểu cho tất cả bệnh nhân

Dung dịch

print[glob.glob['inflammation*.csv']]
1

Sau khi dành thời gian nghiên cứu bản đồ nhiệt và sơ đồ thống kê, cũng như thực hiện các bài tập trên để vẽ sự khác biệt giữa các bộ dữ liệu và để tạo số liệu thống kê bệnh nhân tổng hợp, chúng tôi hiểu rõ hơn về mười hai bộ dữ liệu thử nghiệm lâm sàng

Các bộ dữ liệu dường như rơi vào hai loại

  • bộ dữ liệu dường như “lý tưởng” phù hợp xuất sắc với Tiến sĩ. Tuyên bố của Maverick, nhưng hiển thị các giá trị cực đại và cực tiểu đáng ngờ [chẳng hạn như
    ['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
    'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
    'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
    
    1 và
    ['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
    'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
    'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
    
    2]
  • bộ dữ liệu “ồn ào” phần nào đồng ý với Tiến sĩ. tuyên bố của Maverick, nhưng cho thấy các vấn đề liên quan đến thu thập dữ liệu như các giá trị bị thiếu lẻ tẻ và thậm chí là một ứng cử viên không phù hợp để đưa nó vào thử nghiệm lâm sàng

Trên thực tế, có vẻ như cả ba bộ dữ liệu “noisy” [

['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
5,
['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
6 và
['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
7] giống hệt nhau cho đến giá trị cuối cùng. Được trang bị thông tin này, chúng tôi đối mặt với Dr. Maverick về dữ liệu đáng ngờ và các tệp trùng lặp

Tiến sĩ. Maverick thú nhận rằng họ đã ngụy tạo dữ liệu lâm sàng sau khi phát hiện ra rằng thử nghiệm ban đầu gặp phải một số vấn đề, bao gồm việc ghi dữ liệu không đáng tin cậy và lựa chọn người tham gia kém. Họ đã tạo dữ liệu giả để chứng minh thuốc của họ có tác dụng và khi chúng tôi yêu cầu thêm dữ liệu, họ đã cố gắng tạo nhiều bộ dữ liệu giả hơn, cũng như ném vào bộ dữ liệu chất lượng kém ban đầu một vài lần để thử và làm cho tất cả các thử nghiệm có vẻ nhiều hơn một chút

Xin chúc mừng. Chúng tôi đã điều tra dữ liệu về tình trạng viêm và chứng minh rằng các bộ dữ liệu đã được tạo tổng hợp

Nhưng sẽ thật đáng tiếc nếu vứt bỏ các bộ dữ liệu tổng hợp đã dạy chúng ta rất nhiều điều, vì vậy chúng ta sẽ tha thứ cho Tiến sĩ tưởng tượng. Maverick và tiếp tục sử dụng dữ liệu để học cách lập trình

Những điểm chính

  • Sử dụng

    ['inflammation-05.csv', 'inflammation-11.csv', 'inflammation-12.csv', 'inflammation-08.csv',
    'inflammation-03.csv', 'inflammation-06.csv', 'inflammation-09.csv', 'inflammation-07.csv',
    'inflammation-10.csv', 'inflammation-02.csv', 'inflammation-04.csv', 'inflammation-01.csv']
    
    8 để tạo danh sách các tệp có tên khớp với mẫu

  • Sử dụng

    print[glob.glob['inflammation*.csv']]
    
    6 trong một mẫu để khớp với 0 hoặc nhiều ký tự và
    print[glob.glob['inflammation*.csv']]
    
    7 để khớp với bất kỳ ký tự đơn nào

Chủ Đề