Ngày 8 tháng 12 năm 2017 Tại sao học cách làm việc với Excel với Python? Excel là một trong những công cụ dữ liệu phổ biến và được sử dụng rộng rãi nhất; Thật khó để tìm thấy một tổ chức không làm việc với nó theo một cách nào đó. Từ các nhà phân tích, đến VPS bán hàng, đến CEO, nhiều chuyên gia khác nhau sử dụng Excel cho cả số liệu thống kê nhanh và khủng hoảng dữ liệu nghiêm trọng. Với Excel rất phổ biến, các chuyên gia dữ liệu phải quen thuộc với nó. Làm việc với dữ liệu trong Python hoặc R mang lại lợi thế nghiêm trọng so với UI Excel, vì vậy, việc tìm cách làm việc với Excel bằng mã là rất quan trọng. Rất may, có một công cụ tuyệt vời đã có sẵn để sử dụng Excel với Python được gọi là
9.movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
Pandas có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ các tệp Excel. Bạn cũng có thể xuất kết quả của mình từ gấu trúc trở lại Excel, nếu điều đó được ưa thích bởi đối tượng dự định của bạn. Gandas là tuyệt vời cho các nhiệm vụ phân tích dữ liệu thông thường khác, chẳng hạn như:
- Phân tích dữ liệu thăm dò nhanh [EDA]
- Vẽ những lô hấp dẫn
- Cho dữ liệu vào các công cụ học máy như Scikit-learn
- Xây dựng các mô hình học máy trên dữ liệu của bạn
- Lấy dữ liệu được làm sạch và xử lý đến bất kỳ số lượng công cụ dữ liệu nào
Pandas tốt hơn trong việc tự động hóa các tác vụ xử lý dữ liệu hơn Excel, bao gồm cả xử lý các tệp Excel.
Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách làm việc với các tệp excel trong gấu trúc. Chúng tôi sẽ bao gồm các khái niệm sau.
- Thiết lập máy tính của bạn với phần mềm cần thiết
- Đọc trong dữ liệu từ các tệp excel vào gấu trúc
- Thăm dò dữ liệu trong gấu trúc
- Trực quan hóa dữ liệu trong gấu trúc bằng thư viện trực quan matplotlib
- Thao tác và định hình lại dữ liệu trong gấu trúc
- chuyển dữ liệu từ gấu trúc sang excel
Lưu ý rằng hướng dẫn này không cung cấp một cú lặn sâu vào gấu trúc. Để khám phá gấu trúc nhiều hơn, hãy xem khóa học của chúng tôi.
Điều kiện tiên quyết của hệ thống
Chúng tôi sẽ sử dụng máy tính xách tay Python 3 và Jupyter để trình bày mã trong hướng dẫn này. Ngoài ra vào Notebook Python và Jupyter, bạn sẽ cần các mô -đun Python sau:
- matplotlib - trực quan hóa dữ liệu
- Numpy - Chức năng dữ liệu số
- OpenPyXL - Đọc/Viết các tệp XLSX/XLSM Excel 2010
- Gấu trúc-Nhập dữ liệu, dọn dẹp, thăm dò và phân tích
- XLRD - Đọc dữ liệu Excel
- XLWT - Viết cho Excel
- Xlsxwriter - ghi vào các tệp Excel [XLSX]
Có nhiều cách để được thiết lập với tất cả các mô -đun. Chúng tôi bao gồm ba trong số các kịch bản phổ biến nhất dưới đây.
- Nếu bạn đã cài đặt Python thông qua Trình quản lý gói Anaconda, bạn có thể cài đặt các mô -đun cần thiết bằng lệnh
0. Ví dụ: để cài đặt gấu trúc, bạn sẽ thực thi lệnh -movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0] movies_sheet2.head[]
1.movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0] movies_sheet2.head[]
- Nếu bạn đã cài đặt một Python thường xuyên, không phải anaconda trên máy tính, bạn có thể cài đặt các mô-đun cần thiết bằng cách sử dụng
2. Mở chương trình dòng lệnh của bạn và thực thi lệnhmovies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0] movies_sheet2.head[]
3 để cài đặt mô -đun. Bạn nên thay thếmovies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0] movies_sheet2.head[]
4 bằng tên thực tế của mô -đun bạn đang cố gắng cài đặt. Ví dụ: để cài đặt gấu trúc, bạn sẽ thực thi lệnh -movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0] movies_sheet2.head[]
5.movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0] movies_sheet2.head[]
- Nếu bạn không có Python đã được cài đặt, bạn nên nhận nó thông qua Trình quản lý gói Anaconda. Anaconda cung cấp các trình cài đặt cho máy tính Windows, Mac và Linux. Nếu bạn chọn trình cài đặt đầy đủ, bạn sẽ nhận được tất cả các mô -đun bạn cần, cùng với Python và Pandas trong một gói duy nhất. Đây là cách dễ nhất và nhanh nhất để bắt đầu.
Các tập dữ liệu
Trong hướng dẫn này, chúng tôi sẽ sử dụng tệp Excel nhiều tờ mà chúng tôi đã tạo từ dữ liệu điểm số Kaggle IMDB. Bạn có thể tải xuống tập tin ở đây.
Tệp Excel của chúng tôi có ba tờ: ‘1900, năm 2000, và năm 2010. Mỗi tờ có dữ liệu cho các bộ phim từ những năm đó.
Chúng tôi sẽ sử dụng bộ dữ liệu này để tìm phân phối xếp hạng cho các bộ phim, trực quan hóa phim có xếp hạng cao nhất và thu nhập ròng và tính toán thông tin thống kê về các bộ phim. Chúng tôi sẽ phân tích và khám phá dữ liệu này bằng Python và Pandas, do đó thể hiện khả năng của Pandas để làm việc với dữ liệu Excel trong Python.
Đọc dữ liệu từ tệp Excel
Trước tiên chúng ta cần nhập dữ liệu từ tệp excel vào gấu trúc. Để làm điều đó, chúng tôi bắt đầu bằng cách nhập mô -đun Pandas.
import pandas as pd
Sau đó, chúng tôi sử dụng phương pháp Pandas, Read_excel để đọc trong dữ liệu từ tệp Excel. Cách dễ nhất để gọi phương thức này là chuyển tên tệp. Nếu không có tên trang tính được chỉ định thì nó sẽ đọc bảng đầu tiên trong chỉ mục [như hiển thị bên dưới].
excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
Ở đây, phương thức
movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0]
movies_sheet2.head[]
6 Đọc dữ liệu từ tệp Excel vào đối tượng DataFrame của gấu trúc. Pandas mặc định lưu trữ dữ liệu trong DataFrames. Sau đó, chúng tôi đã lưu trữ khung dữ liệu này vào một biến gọi là movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0]
movies_sheet2.head[]
7.Pandas có phương pháp
movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0]
movies_sheet2.head[]
8 tích hợp mà chúng ta có thể sử dụng để dễ dàng hiển thị một vài hàng đầu tiên của DataFrame. Nếu không có đối số nào được thông qua, nó sẽ hiển thị năm hàng đầu tiên. Nếu một số được truyền, nó sẽ hiển thị số lượng hàng bằng nhau từ trên cùng.movies.head[]
Không khoan dung: Tình yêu cuộc đấu tranh trong suốt thời đại | 1916 | Kịch | Lịch sử | Chiến tranh | Nan | Hoa Kỳ | Không được đánh giá | 123 | 1.33 | 385907.0 | Nan | Hoa Kỳ | 436 | 22 | 9.0 | 481 | 691 | 1 | 10718 | 88 | 69.0 | 8.0 |
Không được đánh giá | 1920 | … | Nan | Hoa Kỳ | Nan | 110 | 1.33 | 100000.0 | 3000000.0 | Hoa Kỳ | 2 | 2 | 0.0 | 4 | 0 | 1 | 5 | 1 | 1.0 | 4.8 |
Không được đánh giá | 1925 | … | Nan | Hoa Kỳ | Không được đánh giá | 151 | 1.33 | 245000.0 | Nan | Hoa Kỳ | 81 | 12 | 6.0 | 108 | 226 | 0 | 4849 | 45 | 48.0 | 8.3 |
Không được đánh giá | 1927 | … | Trên ngọn đồi đến nhà nghèo | Tội phạm | kịch | Không được đánh giá | 145 | 1.33 | 6000000.0 | 26435.0 | Hoa Kỳ | 136 | 23 | 18.0 | 203 | 12000 | 1 | 111841 | 413 | 260.0 | 8.3 |
Không được đánh giá | 1929 | … | Trên ngọn đồi đến nhà nghèo | Tội phạm | kịch | Không được đánh giá | 110 | 1.33 | Nan | 9950.0 | Hoa Kỳ | 426 | 20 | 3.0 | 455 | 926 | 1 | 7431 | 84 | 71.0 | 8.0 |
Không được đánh giá
…
Trên ngọn đồi đến nhà nghèo
Tội phạm | kịch
movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
1916 | Kịch | Lịch sử | Chiến tranh | Nan | Hoa Kỳ | Không được đánh giá | 123 | 1.33 | 385907.0 | Nan | Hoa Kỳ | Hoa Kỳ | 436 | 22 | 9.0 | 481 | 691 | 1 | 10718 | 88 | 69.0 | 8.0 |
1920 | … | Nan | Hoa Kỳ | Nan | 110 | 1.33 | 100000.0 | 3000000.0 | Hoa Kỳ | Hoa Kỳ | 2 | 2 | 0.0 | 4 | 0 | 1 | 5 | 1 | 1.0 | 4.8 |
1925 | … | Nan | Hoa Kỳ | Không được đánh giá | 151 | 1.33 | 245000.0 | Nan | Hoa Kỳ | Hoa Kỳ | 81 | 12 | 6.0 | 108 | 226 | 0 | 4849 | 45 | 48.0 | 8.3 |
1927 | … | Trên ngọn đồi đến nhà nghèo | Tội phạm | kịch | Không được đánh giá | 145 | 1.33 | 6000000.0 | 26435.0 | … | Hoa Kỳ | 136 | 23 | 18.0 | 203 | 12000 | 1 | 111841 | 413 | 260.0 | 8.3 |
1929 | … | Trên ngọn đồi đến nhà nghèo | Tội phạm | kịch | Không được đánh giá | 110 | 1.33 | Nan | 9950.0 | Hoa Kỳ | Hoa Kỳ | 426 | 20 | 3.0 | 455 | 926 | 1 | 7431 | 84 | 71.0 | 8.0 |
Không được đánh giá
…
movies_sheet2 = pd.read_excel[excel_file, sheetname=1, index_col=0]
movies_sheet2.head[]
2000 | Kịch | Lịch sử | Chiến tranh | Nan | Hoa Kỳ | Không được đánh giá | 100.0 | 1.85 | 85000000.0 | 66941559.0 | … | Hoa Kỳ | 2000.0 | 795.0 | 439.0 | 4182 | 372 | 1 | 26413 | 77.0 | 84.0 | 4.8 |
2000 | … | Nan | Hoa Kỳ | Không được đánh giá | 103.0 | 1.37 | 43000000.0 | 37035515.0 | … | Hoa Kỳ | 12000.0 | 10000.0 | 664.0 | 23864 | 0 | 1 | 34597 | 194.0 | 116.0 | 6.0 |
2000 | … | Nan | Hoa Kỳ | Không được đánh giá | 82.0 | 1.85 | 6000000.0 | 9821335.0 | … | Hoa Kỳ | 939.0 | 706.0 | 585.0 | 3354 | 118 | 1 | 1415 | 10.0 | 22.0 | 4.0 |
2000 | … | Nan | Hoa Kỳ | Nan | 106.0 | 1.85 | 6500000.0 | 64148.0 | Hoa Kỳ | Hoa Kỳ | 844.0 | 2.0 | 0.0 | 846 | 260 | 0 | 2601 | 35.0 | 28.0 | 7.3 |
2000 | … | Nan | Hoa Kỳ | Không được đánh giá | 220.0 | 2.35 | 57000000.0 | 15527125.0 | … | Hoa Kỳ | 13000.0 | 861.0 | 820.0 | 15006 | 652 | 2 | 11388 | 183.0 | 85.0 | 5.8 |
Không được đánh giá
movies_sheet3 = pd.read_excel[excel_file, sheetname=2, index_col=0]
movies_sheet3.head[]
2010.0 | Cuộc phiêu lưu | Tiểu sử | Kịch | Thriller | Tiếng Anh | Hoa Kỳ | R | 94.0 | 1.85 | 18000000.0 | 18329466.0 | Danny Boyle | … | 11000.0 | 642.0 | 223.0 | 11984 | 63000 | 0.0 | 279179 | 440.0 | 450.0 | 7.6 |
2010.0 | Kịch | Tiếng Anh | Hoa Kỳ | R | 88.0 | Danny Boyle | 300000.0 | Danny Boyle | … | … | 795.0 | 659.0 | 301.0 | 1884 | 92 | 0.0 | 554 | 23.0 | 20.0 | 5.2 |
2010.0 | 3 sân sau | Kịch | Nan | Eric Mendelsohn | 119.0 | 2.35 | Danny Boyle | 59774.0 | … | … | 24.0 | 20.0 | 9.0 | 69 | 2000 | 0.0 | 4212 | 18.0 | 76.0 | 6.8 |
2010.0 | Kịch | Tiếng Anh | Hoa Kỳ | R | 80.0 | 1.78 | 2500000.0 | 99851.0 | Danny Boyle | … | 191.0 | 12.0 | 5.0 | 210 | 0 | 0.0 | 1138 | 30.0 | 28.0 | 7.1 |
2010.0 | Kịch | Tiếng Anh | Hoa Kỳ | R | 88.0 | 2.35 | Danny Boyle | Danny Boyle | … | … | 783.0 | 749.0 | 602.0 | 3874 | 0 | 2.0 | 5385 | 22.0 | 56.0 | 6.1 |
3 sân sau
Kịch
NanEric Mendelsohn
movies.shape
[5042, 24]
Hài kịch | Kịch | lãng mạn
tiếng Đức
xlsx = pd.ExcelFile[excel_file]
movies_sheets = []
for sheet in xlsx.sheet_names:
movies_sheets.append[xlsx.parse[sheet]]
movies = pd.concat[movies_sheets]
nước Đức
Không được đánh giá
Tom Tykwer
8: Đề xuất Mormon
Phim tài liệu
movies.shape
excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
1Sậy Cowan
Một câu chuyện rùa rùa: Cuộc phiêu lưu của Sammy
Adventure | Hoạt hình | Gia đình
2 | Danny Boyle | … | Tiếng Anh | 3 sân sau | Kịch | Danny Boyle | 16.00 | Danny Boyle | Danny Boyle | … | 1000.0 | 888.0 | 502.0 | 4528 | 11000 | 1.0 | 9277 | 44.0 | 10.0 | 8.2 |
3 sân sau | Danny Boyle | … | Tiếng Anh | Hoa Kỳ | Danny Boyle | 30.0 | 1.33 | Danny Boyle | Danny Boyle | … | 685.0 | 511.0 | 424.0 | 1884 | 1000 | 5.0 | 7646 | 56.0 | 19.0 | 7.3 |
3 sân sau | Danny Boyle | … | Tiếng Anh | 3 sân sau | Danny Boyle | Danny Boyle | 2.00 | Danny Boyle | Danny Boyle | … | 511.0 | 457.0 | 206.0 | 1617 | 954 | 0.0 | 726 | 6.0 | 2.0 | 7.1 |
3 sân sau | Danny Boyle | … | Tiếng Anh | 3 sân sau | Danny Boyle | 142.0 | Danny Boyle | Danny Boyle | Danny Boyle | … | 27000.0 | 698.0 | 427.0 | 29196 | 0 | 2.0 | 6053 | 33.0 | 9.0 | 7.7 |
3 sân sau | Danny Boyle | … | 3 sân sau | Kịch | Danny Boyle | 24.0 | Danny Boyle | Danny Boyle | Danny Boyle | … | 0.0 | Danny Boyle | Danny Boyle | 0 | 124 | 0.0 | 12417 | 51.0 | 6.0 | 7.0 |
…
3 sân sau
excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
3Kịch
excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
4excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
5Chúng tôi cũng có thể tạo ra một cốt truyện cho 10 bộ phim hàng đầu bằng tổng thu nhập. Pandas giúp dễ dàng trực quan hóa dữ liệu của bạn với các sơ đồ và biểu đồ thông qua Matplotlib, một thư viện trực quan hóa dữ liệu phổ biến. Với một vài dòng mã, bạn có thể bắt đầu vẽ đồ thị. Hơn nữa, các sơ đồ matplotlib hoạt động tốt bên trong máy tính xách tay Jupyter vì bạn có thể thay thế các lô ngay dưới mã.
Đầu tiên, chúng tôi nhập mô -đun matplotlib và đặt matplotlib để hiển thị các lô ngay trong sổ ghi chép Jupyter.
excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
6Chúng tôi sẽ vẽ một âm mưu thanh nơi mỗi thanh sẽ đại diện cho một trong 10 bộ phim hàng đầu. Chúng ta có thể làm điều này bằng cách gọi phương thức cốt truyện và đặt đối số
movies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
6 thành movies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
7. Điều này nói với movies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
8 để vẽ một âm mưu thanh ngang.excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
7Hãy để tạo ra một biểu đồ của điểm số IMDB để kiểm tra phân phối điểm IMDB trên tất cả các bộ phim. Biểu đồ là một cách tốt để trực quan hóa phân phối của một tập dữ liệu. Chúng tôi sử dụng phương thức
movies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
9 trên chuỗi IMDB điểm số từ các bộ phim của chúng tôi DataFrame và truyền cho nó đối số.excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
8Trực quan hóa dữ liệu này cho thấy rằng hầu hết các điểm IMDB đều giảm từ sáu đến tám.
Nhận thông tin thống kê về dữ liệu
Pandas có một số phương pháp rất tiện dụng để xem dữ liệu thống kê về tập dữ liệu của chúng tôi. Ví dụ: chúng ta có thể sử dụng phương pháp
movies.shape
0 để có được bản tóm tắt thống kê của tập dữ liệu.excel_file = 'movies.xls'
movies = pd.read_excel[excel_file]
9
4935.000000 | 5028.000000 | 4714.000000 | 4.551000e+03 | 4.159000e+03 | 4938.000000 | 5035.000000 | 5029.000000 | 5020.000000 | 5042.000000 | 5042.000000 | 5029.000000 | 5.042000e+03 | 5022.000000 | 4993.000000 | 5042.000000 |
2002.470517 | 107.201074 | 2.220403 | 3.975262e+07 | 4.846841e+07 | 686.621709 | 6561.323932 | 1652.080533 | 645.009761 | 9700.959143 | 7527.457160 | 1.371446 | 8.368475e+04 | 272.770808 | 140.194272 | 6.442007 |
12.474599 | 25.197441 | 1.385113 | 2.061149e+08 | 6.845299e+07 | 2813.602405 | 15021.977635 | 4042.774685 | 1665.041728 | 18165.101925 | 19322.070537 | 2.013683 | 1.384940e+05 | 377.982886 | 121.601675 | 1.125189 |
1916.000000 | 7.000000 | 1.180000 | 2.180000e+02 | 1.620000e+02 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 5.000000e+00 | 1.000000 | 1.000000 | 1.600000 |
1999.000000 | 93.000000 | 1.850000 | 6.000000e+06 | 5.340988e+06 | 7.000000 | 614.500000 | 281.000000 | 133.000000 | 1411.250000 | 0.000000 | 0.000000 | 8.599250e+03 | 65.000000 | 50.000000 | 5.800000 |
2005.000000 | 103.000000 | 2.350000 | 2.000000e+07 | 2.551750e+07 | 49.000000 | 988.000000 | 595.000000 | 371.500000 | 3091.000000 | 166.000000 | 1.000000 | 3.437100e+04 | 156.000000 | 110.000000 | 6.600000 |
2011.000000 | 118.000000 | 2.350000 | 4.500000e+07 | 6.230944e+07 | 194.750000 | 11000.000000 | 918.000000 | 636.000000 | 13758.750000 | 3000.000000 | 2.000000 | 9.634700e+04 | 326.000000 | 195.000000 | 7.200000 |
2016.000000 | 511.000000 | 16.000000 | 1.221550e+10 | 7.605058e+08 | 23000.000000 | 640000.000000 | 137000.000000 | 23000.000000 | 656730.000000 | 349000.000000 | 43.000000 | 1.689764e+06 | 5060.000000 | 813.000000 | 9.500000 |
Phương thức
movies.shape
0 hiển thị thông tin bên dưới cho từng cột.- số lượng hoặc số lượng giá trị
- bần tiện
- STD
- Tối thiểu
- Tối đa
Phương thức
movies.shape
0 hiển thị thông tin bên dưới cho từng cột.số lượng hoặc số lượng giá trị
movies.head[]
0movies.head[]
1độ lệch chuẩn
Tối thiểu, tối đa
25%, 50%và 75%lượng tử
Xin lưu ý rằng thông tin này sẽ chỉ được tính toán cho các giá trị số.
Chúng tôi cũng có thể sử dụng phương pháp tương ứng để truy cập thông tin này cùng một lúc. Ví dụ: để có được giá trị trung bình của một cột cụ thể, bạn có thể sử dụng phương thức
movies.shape
2 trên cột đó.movies.head[]
2
Đô thị | 1927 | Kịch | khoa học viễn tưởng | tiếng Đức | nước Đức | Không được đánh giá | 145 | 1.33 | 6000000.0 | 26435.0 | … | 136 | 23 | 18.0 | 203 | 12000 | 1 | 111841 | 413 | 260.0 | 8.3 |
Hộp Pandora | 1929 | Tội ác | Kịch | lãng mạn | tiếng Đức | nước Đức | Không được đánh giá | 110 | 1.33 | … | 9950.0 | … | 426 | 20 | 3.0 | 455 | 926 | 1 | 7431 | 84 | 71.0 | 8.0 |
Hộp Pandora | 1929 | Tội ác | Kịch | lãng mạn | Nan | Giai điệu Broadway | Nhạc kịch | Lãng mạn | 100 | 1.37 | 379000.0 | 2808000.0 | … | 77 | 28 | 4.0 | 109 | 167 | 8 | 4546 | 71 | 36.0 | 6.3 |
Hộp Pandora | 1930 | Tội ác | Kịch | lãng mạn | Nan | Giai điệu Broadway | Nhạc kịch | Lãng mạn | 96 | 1.20 | 3950000.0 | … | … | 431 | 12 | 4.0 | 457 | 279 | 1 | 3753 | 53 | 35.0 | 7.8 |
Hộp Pandora | 1932 | Tội ác | Kịch | lãng mạn | Nan | Giai điệu Broadway | Nhạc kịch | Lãng mạn | 79 | 1.37 | 800000.0 | … | … | 998 | 164 | 99.0 | 1284 | 213 | 1 | 3519 | 46 | 42.0 | 6.6 |
Hộp Pandora
Tội ác | Kịch | lãng mạn
Nan
movies.head[]
3
Đô thị | 1927 | Kịch | khoa học viễn tưởng | tiếng Đức | nước Đức | Không được đánh giá | 145 | 1.33 | 6000000.0 | 26435.0 | … | 136 | 23 | 18.0 | 203 | 12000 | 1 | 111841 | 413 | 260.0 | 8.3 |
Hộp Pandora | 1929 | Tội ác | Kịch | lãng mạn | tiếng Đức | nước Đức | Không được đánh giá | 110 | 1.33 | … | 9950.0 | … | 426 | 20 | 3.0 | 455 | 926 | 1 | 7431 | 84 | 71.0 | 8.0 |
Hộp Pandora | 1929 | Tội ác | Kịch | lãng mạn | Nan | Giai điệu Broadway | Nhạc kịch | Lãng mạn | 100 | 1.37 | 379000.0 | 2808000.0 | … | 77 | 28 | 4.0 | 109 | 167 | 8 | 4546 | 71 | 36.0 | 6.3 |
Hộp Pandora | 1930 | Tội ác | Kịch | lãng mạn | Nan | Giai điệu Broadway | Nhạc kịch | Lãng mạn | 96 | 1.20 | 3950000.0 | … | … | 431 | 12 | 4.0 | 457 | 279 | 1 | 3753 | 53 | 35.0 | 7.8 |
Hộp Pandora | 1932 | Tội ác | Kịch | lãng mạn | Nan | Giai điệu Broadway | Nhạc kịch | Lãng mạn | 79 | 1.37 | 800000.0 | … | … | 998 | 164 | 99.0 | 1284 | 213 | 1 | 3519 | 46 | 42.0 | 6.6 |
Hộp Pandora
Tội ác | Kịch | lãng mạn
Nan
Giai điệu Broadway
movies.head[]
4
Một lời chia tay với vũ khí | 1916 | Kịch | lãng mạn | chiến tranh | … | Giai điệu Broadway | Không được đánh giá | 123 |
Nhạc kịch | Lãng mạn | 1920 | Tiếng Anh | … | Giai điệu Broadway | … | 110 |
Hộp Pandora | 1925 | Tội ác | Kịch | lãng mạn | … | Giai điệu Broadway | Không được đánh giá | 151 |
Đô thị | 1927 | Kịch | khoa học viễn tưởng | tiếng Đức | nước Đức | Không được đánh giá | 145 |
Hộp Pandora | 1929 | Tội ác | Kịch | lãng mạn | tiếng Đức | nước Đức | Không được đánh giá | 110 |
Nhạc kịch | Lãng mạn
Tiếng Anh
Hoa Kỳ
movies.head[]
5Thông qua
Thiên thần ác quỷ
movies.head[]
6Kịch | Chiến tranh
Một lời chia tay với vũ khí
Kịch | lãng mạn | chiến tranh
movies.head[]
7
1916.0 | Nan |
1920.0 | 3000000.0 |
1925.0 | Nan |
1927.0 | 26435.0 |
1929.0 | 9950.0 |
Bây giờ chúng tôi gọi
[5042, 24]
2 trên tập hợp dữ liệu này. Phương pháp [5042, 24]
2 có tham số [5042, 24]
4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số.movies.head[]
8
Nan |
3000000.0 |
Nan |
26435.0 |
1408975.0 |
Bây giờ chúng tôi gọi
[5042, 24]
2 trên tập hợp dữ liệu này. Phương pháp [5042, 24]
2 có tham số [5042, 24]
4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số.Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng.
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thứcmovies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức [5042, 24]
6 để hiển thị biểu đồ trong sổ ghi chép.
movies.head[]
9movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
0
Nan | Nan | Nan |
Nan | Nan | 3000000.0 |
Nan | Nan | Nan |
Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 26435.0 |
Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 9950.0 |
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức
movies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức [5042, 24]
6 để hiển thị biểu đồ trong sổ ghi chép.movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
1
1.127331e+06 |
7.230936e+06 |
1.007614e+07 |
6.165429e+06 |
5.052950e+05 |
Aruba
movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
2Tiếng Anh
Châu Úc
movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
3Thổ dân
movies.head[]
Hãy để trực quan hóa bảng trục này với một âm mưu thanh. Vì vẫn còn vài trăm bản ghi trong bảng trục này, chúng tôi sẽ chỉ vẽ một vài trong số đó. | 1916.0 | Xuất kết quả để xuất sắc | Nan | Nan | Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | 123.0 | 1.33 | 385907.0 | Nan | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 22.0 | 9.0 | 481 | 691 | 1.0 | 10718 | 88.0 | 69.0 | 8.0 | Nan |
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép. | 1920.0 | 9 | Nan | Nan | Nan | 110.0 | 1.33 | 100000.0 | 3000000.0 | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 2.0 | 0.0 | 4 | 0 | 1.0 | 5 | 1.0 | 1.0 | 4.8 | 2900000.0 |
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép. | 1925.0 | 9 | Nan | Nan | Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | 151.0 | 1.33 | 245000.0 | Nan | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 12.0 | 6.0 | 108 | 226 | 0.0 | 4849 | 45.0 | 48.0 | 8.3 | Nan |
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép. | 1927.0 | 9 | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | 145.0 | 1.33 | 6000000.0 | 26435.0 | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 23.0 | 18.0 | 203 | 12000 | 1.0 | 111841 | 413.0 | 260.0 | 8.3 | -5973565.0 |
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép. | 1929.0 | 9 | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. | 110.0 | 1.33 | Nan | 9950.0 | Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. | 20.0 | 3.0 | 455 | 926 | 1.0 | 7431 | 84.0 | 71.0 | 8.0 | Nan |
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức
movies = pd.concat[[movies_sheet1, movies_sheet2, movies_sheet3]]
9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức [5042, 24]
6 để hiển thị biểu đồ trong sổ ghi chép.
movies.head[]
9movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
5Chúng tôi đã thấy cách xoay vòng với một cột là chỉ mục. Mọi thứ sẽ trở nên thú vị hơn nếu chúng ta có thể sử dụng nhiều cột. Hãy để tạo ra một tập hợp dữ liệu khác nhưng lần này chúng tôi sẽ chọn các cột, quốc gia, ngôn ngữ và thu nhập gộp.
Quốc gia
movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
6Ngôn ngữ
movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
7Hoa Kỳ
movies_sheet1 = pd.read_excel[excel_file, sheetname=0, index_col=0]
movies_sheet1.head[]
8nước Đức
tiếng Đức
Chúng tôi sẽ sử dụng các cột Quốc gia và ngôn ngữ làm chỉ mục cho bảng Pivot. Chúng tôi sẽ sử dụng tổng thu nhập làm bảng tóm tắt, tuy nhiên, chúng tôi không cần chỉ định điều này một cách rõ ràng như chúng tôi đã thấy trước đó.
Afghanistan
Mặt khác, Excel là một công cụ dữ liệu được sử dụng rộng rãi như vậy, nó không phải là một điều khôn ngoan để bỏ qua nó. Có được chuyên môn ở cả gấu trúc và excel và làm cho họ làm việc cùng nhau cung cấp cho bạn các kỹ năng có thể giúp bạn nổi bật trong tổ chức của mình.
Nếu bạn muốn tìm hiểu thêm về chủ đề này, hãy xem khóa học về các nguyên tắc cơ bản tương tác và dữ liệu của DataQuest, và nhà phân tích dữ liệu của chúng tôi ở Python và nhà khoa học dữ liệu trong Python Paths sẽ giúp bạn sẵn sàng làm việc trong khoảng 6 tháng.
Học kỹ năng dữ liệu
Nhận mức tăng tiếp theo hoặc chuyển sang nghề nghiệp trong khoa học dữ liệu bằng cách học các kỹ năng dữ liệu.
Đăng ký một tài khoản miễn phí và thử các khóa học tương tác của chúng tôi tại Python, R, SQL, v.v.free account and try our interactive courses in Python, R, SQL, and more!