Nhập môn Khoa học dữ liệu trong bài tập Python 3
Tải dữ liệu năng lượng từ tệp _______0_______4, là danh sách các chỉ số về cung cấp năng lượng và sản xuất điện tái tạo từ Liên Hợp Quốc cho năm 2013 và phải được đưa vào Khung dữ liệu với tên biến là năng lượng Xin lưu ý rằng đây là tệp Excel chứ không phải tệp giá trị được phân tách bằng dấu phẩy. Ngoài ra, đảm bảo loại trừ thông tin chân trang và tiêu đề khỏi tệp dữ liệu. Hai cột đầu tiên không cần thiết, vì vậy bạn nên loại bỏ chúng và bạn nên thay đổi nhãn cột để các cột được 5Chuyển đổi 6 sang gigajoules (có 1.000.000 gigajoules trong một petajoule). Đối với tất cả các quốc gia có dữ liệu bị thiếu (e. g. dữ liệu với ". ") đảm bảo điều này được phản ánh dưới dạng giá trị _______0_______7Đổi tên danh sách các quốc gia sau (để sử dụng trong các câu hỏi sau) 8Ngoài ra còn có một số quốc gia có số và/hoặc dấu ngoặc đơn trong tên của họ. Hãy chắc chắn loại bỏ những thứ này, e. g 9 phải là 0, 1 nên là 2
Tiếp theo, tải dữ liệu GDP từ tệp 3, là tệp csv chứa GDP của các quốc gia từ năm 1960 đến năm 2015 từ Ngân hàng Thế giới. Gọi khung dữ liệu này là GDPĐảm bảo bỏ qua tiêu đề và đổi tên danh sách các quốc gia sau đây 4
Cuối cùng, tải dữ liệu Xếp hạng Quốc gia và Tạp chí Sciamgo về Kỹ thuật Năng lượng và Công nghệ Năng lượng từ tệp 5, xếp hạng các quốc gia dựa trên đóng góp của tạp chí trong lĩnh vực nói trên. Gọi DataFrame này là ScimEnTham gia ba bộ dữ liệu. GDP, Năng lượng và ScimEn thành một bộ dữ liệu mới (sử dụng giao điểm của tên quốc gia). Chỉ sử dụng dữ liệu GDP trong 10 năm qua (2006-2015) và chỉ 15 quốc gia hàng đầu theo 'Xếp hạng' của Scimagojr (Xếp hạng 1 đến 15) Chỉ mục của Khung dữ liệu này phải là tên của quốc gia và các cột phải là ['Xếp hạng', 'Tài liệu', 'Tài liệu có thể trích dẫn', 'Các trích dẫn', 'Tự trích dẫn', 'Các trích dẫn trên mỗi tài liệu', 'H Hàm này sẽ trả về một Sê-ri 4 có chỉ số là tên quốc gia và có giá trị là chuỗi ước tính dân số |