Hướng dẫn does pandas work with excel? - gấu trúc có hoạt động với excel không?
Ngày 8 tháng 12 năm 2017 Tại sao học cách làm việc với Excel với Python? Excel là một trong những công cụ dữ liệu phổ biến và được sử dụng rộng rãi nhất; Thật khó để tìm thấy một tổ chức không làm việc với nó theo một cách nào đó. Từ các nhà phân tích, đến VPS bán hàng, đến CEO, nhiều chuyên gia khác nhau sử dụng Excel cho cả số liệu thống kê nhanh và khủng hoảng dữ liệu nghiêm trọng. Với Excel rất phổ biến, các chuyên gia dữ liệu phải quen thuộc với nó. Làm việc với dữ liệu trong Python hoặc R mang lại lợi thế nghiêm trọng so với UI Excel, vì vậy, việc tìm cách làm việc với Excel bằng mã là rất quan trọng. Rất may, có một công cụ tuyệt vời đã có sẵn để sử dụng Excel với Python được gọi là Pandas có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ các tệp Excel. Bạn cũng có thể xuất kết quả của mình từ gấu trúc trở lại Excel, nếu điều đó được ưa thích bởi đối tượng dự định của bạn. Gandas là tuyệt vời cho các nhiệm vụ phân tích dữ liệu thông thường khác, chẳng hạn như:
Pandas tốt hơn trong việc tự động hóa các tác vụ xử lý dữ liệu hơn Excel, bao gồm cả xử lý các tệp Excel. Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách làm việc với các tệp excel trong gấu trúc. Chúng tôi sẽ bao gồm các khái niệm sau.
Lưu ý rằng hướng dẫn này không cung cấp một cú lặn sâu vào gấu trúc. Để khám phá gấu trúc nhiều hơn, hãy xem khóa học của chúng tôi. Điều kiện tiên quyết của hệ thốngChúng tôi sẽ sử dụng máy tính xách tay Python 3 và Jupyter để trình bày mã trong hướng dẫn này. Ngoài ra vào Notebook Python và Jupyter, bạn sẽ cần các mô -đun Python sau:
Có nhiều cách để được thiết lập với tất cả các mô -đun. Chúng tôi bao gồm ba trong số các kịch bản phổ biến nhất dưới đây.
Các tập dữ liệuTrong hướng dẫn này, chúng tôi sẽ sử dụng tệp Excel nhiều tờ mà chúng tôi đã tạo từ dữ liệu điểm số Kaggle IMDB. Bạn có thể tải xuống tập tin ở đây. Tệp Excel của chúng tôi có ba tờ: ‘1900, năm 2000, và năm 2010. Mỗi tờ có dữ liệu cho các bộ phim từ những năm đó. Chúng tôi sẽ sử dụng bộ dữ liệu này để tìm phân phối xếp hạng cho các bộ phim, trực quan hóa phim có xếp hạng cao nhất và thu nhập ròng và tính toán thông tin thống kê về các bộ phim. Chúng tôi sẽ phân tích và khám phá dữ liệu này bằng Python và Pandas, do đó thể hiện khả năng của Pandas để làm việc với dữ liệu Excel trong Python. Đọc dữ liệu từ tệp ExcelTrước tiên chúng ta cần nhập dữ liệu từ tệp excel vào gấu trúc. Để làm điều đó, chúng tôi bắt đầu bằng cách nhập mô -đun Pandas.
Sau đó, chúng tôi sử dụng phương pháp Pandas, Read_excel để đọc trong dữ liệu từ tệp Excel. Cách dễ nhất để gọi phương thức này là chuyển tên tệp. Nếu không có tên trang tính được chỉ định thì nó sẽ đọc bảng đầu tiên trong chỉ mục (như hiển thị bên dưới).
Ở đây, phương thức 6 Đọc dữ liệu từ tệp Excel vào đối tượng DataFrame của gấu trúc. Pandas mặc định lưu trữ dữ liệu trong DataFrames. Sau đó, chúng tôi đã lưu trữ khung dữ liệu này vào một biến gọi là 7.Pandas có phương pháp 8 tích hợp mà chúng ta có thể sử dụng để dễ dàng hiển thị một vài hàng đầu tiên của DataFrame. Nếu không có đối số nào được thông qua, nó sẽ hiển thị năm hàng đầu tiên. Nếu một số được truyền, nó sẽ hiển thị số lượng hàng bằng nhau từ trên cùng.
Không được đánh giá … Trên ngọn đồi đến nhà nghèo Tội phạm | kịch
Không được đánh giá …
Không được đánh giá
3 sân sau Kịch NanEric Mendelsohn
Hài kịch | Kịch | lãng mạntiếng Đức
nước Đức Không được đánh giáTom Tykwer 8: Đề xuất Mormon Phim tài liệu
1Sậy Cowan Một câu chuyện rùa rùa: Cuộc phiêu lưu của Sammy Adventure | Hoạt hình | Gia đình
… 3 sân sau 3Kịch 4 5Chúng tôi cũng có thể tạo ra một cốt truyện cho 10 bộ phim hàng đầu bằng tổng thu nhập. Pandas giúp dễ dàng trực quan hóa dữ liệu của bạn với các sơ đồ và biểu đồ thông qua Matplotlib, một thư viện trực quan hóa dữ liệu phổ biến. Với một vài dòng mã, bạn có thể bắt đầu vẽ đồ thị. Hơn nữa, các sơ đồ matplotlib hoạt động tốt bên trong máy tính xách tay Jupyter vì bạn có thể thay thế các lô ngay dưới mã. Đầu tiên, chúng tôi nhập mô -đun matplotlib và đặt matplotlib để hiển thị các lô ngay trong sổ ghi chép Jupyter. 6Chúng tôi sẽ vẽ một âm mưu thanh nơi mỗi thanh sẽ đại diện cho một trong 10 bộ phim hàng đầu. Chúng ta có thể làm điều này bằng cách gọi phương thức cốt truyện và đặt đối số 6 thành 7. Điều này nói với 8 để vẽ một âm mưu thanh ngang. 7Hãy để tạo ra một biểu đồ của điểm số IMDB để kiểm tra phân phối điểm IMDB trên tất cả các bộ phim. Biểu đồ là một cách tốt để trực quan hóa phân phối của một tập dữ liệu. Chúng tôi sử dụng phương thức 9 trên chuỗi IMDB điểm số từ các bộ phim của chúng tôi DataFrame và truyền cho nó đối số. 8Trực quan hóa dữ liệu này cho thấy rằng hầu hết các điểm IMDB đều giảm từ sáu đến tám. Nhận thông tin thống kê về dữ liệuPandas có một số phương pháp rất tiện dụng để xem dữ liệu thống kê về tập dữ liệu của chúng tôi. Ví dụ: chúng ta có thể sử dụng phương pháp 0 để có được bản tóm tắt thống kê của tập dữ liệu. 9
Phương thức 0 hiển thị thông tin bên dưới cho từng cột.
Phương thức 0 hiển thị thông tin bên dưới cho từng cột.số lượng hoặc số lượng giá trị 0 1độ lệch chuẩn Tối thiểu, tối đa25%, 50%và 75%lượng tử Xin lưu ý rằng thông tin này sẽ chỉ được tính toán cho các giá trị số. Chúng tôi cũng có thể sử dụng phương pháp tương ứng để truy cập thông tin này cùng một lúc. Ví dụ: để có được giá trị trung bình của một cột cụ thể, bạn có thể sử dụng phương thức 2 trên cột đó. 2
Hộp Pandora Tội ác | Kịch | lãng mạn Nan 3
Hộp Pandora Tội ác | Kịch | lãng mạn NanGiai điệu Broadway 4
Nhạc kịch | Lãng mạn Tiếng AnhHoa Kỳ 5Thông qua Thiên thần ác quỷ 6Kịch | Chiến tranhMột lời chia tay với vũ khí Kịch | lãng mạn | chiến tranh 7
Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số. 8
Bây giờ chúng tôi gọi 2 trên tập hợp dữ liệu này. Phương pháp 2 có tham số 4. Như đã đề cập, chúng tôi muốn sử dụng năm làm chỉ số.Điều này đã cho chúng tôi một bảng xoay vòng với nhóm trong năm và tóm tắt về tổng thu nhập gộp. Thông báo, chúng tôi đã không cần chỉ định cột thu nhập gộp rõ ràng là gấu trúc tự động xác định nó là các giá trị mà việc tóm tắt nên được áp dụng. Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép.
9 0
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép. 1
Aruba 2Tiếng AnhChâu Úc 3Thổ dân
Chúng ta có thể sử dụng bảng trục này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 9 trên DataFrame để tạo biểu đồ dòng và gọi phương thức 6 để hiển thị biểu đồ trong sổ ghi chép.
9 5Chúng tôi đã thấy cách xoay vòng với một cột là chỉ mục. Mọi thứ sẽ trở nên thú vị hơn nếu chúng ta có thể sử dụng nhiều cột. Hãy để tạo ra một tập hợp dữ liệu khác nhưng lần này chúng tôi sẽ chọn các cột, quốc gia, ngôn ngữ và thu nhập gộp. Quốc gia 6Ngôn ngữ 7Hoa Kỳ 8nước Đức tiếng Đức Chúng tôi sẽ sử dụng các cột Quốc gia và ngôn ngữ làm chỉ mục cho bảng Pivot. Chúng tôi sẽ sử dụng tổng thu nhập làm bảng tóm tắt, tuy nhiên, chúng tôi không cần chỉ định điều này một cách rõ ràng như chúng tôi đã thấy trước đó.Afghanistan Mặt khác, Excel là một công cụ dữ liệu được sử dụng rộng rãi như vậy, nó không phải là một điều khôn ngoan để bỏ qua nó. Có được chuyên môn ở cả gấu trúc và excel và làm cho họ làm việc cùng nhau cung cấp cho bạn các kỹ năng có thể giúp bạn nổi bật trong tổ chức của mình. Nếu bạn muốn tìm hiểu thêm về chủ đề này, hãy xem khóa học về các nguyên tắc cơ bản tương tác và dữ liệu của DataQuest, và nhà phân tích dữ liệu của chúng tôi ở Python và nhà khoa học dữ liệu trong Python Paths sẽ giúp bạn sẵn sàng làm việc trong khoảng 6 tháng. Học kỹ năng dữ liệuNhận mức tăng tiếp theo hoặc chuyển sang nghề nghiệp trong khoa học dữ liệu bằng cách học các kỹ năng dữ liệu. Đăng ký một tài khoản miễn phí và thử các khóa học tương tác của chúng tôi tại Python, R, SQL, v.v.free account and try our interactive courses in Python, R, SQL, and more! Chúng ta có thể sử dụng gấu trúc trong excel không?Chúng ta chỉ cần nhập gấu trúc, sử dụng phương thức read_csv () và viết tên của tệp excel/csv trong ngoặc đơn. Trong mã trên, chúng tôi đổi tên gấu trúc thành PD PD. Đây chỉ là một quy ước để đặt tên cho gấu trúc. Sau khi chạy mã ở trên, bạn sẽ thấy DataFrame sau. Đó là tất cả những gì bạn cần để tạo một DataFrame!. In the code above, we renamed pandas as “pd.” This is only a convention to name pandas. After running the code above, you will see the following dataframe. That's all you need to create a dataframe!
Làm thế nào đọc dữ liệu từ excel trong gấu trúc?Các bước để nhập một tệp Excel vào Python bằng Pandas.. Bước 1: Chụp đường dẫn tệp.Đầu tiên, bạn sẽ cần ghi lại đường dẫn đầy đủ nơi lưu trữ tệp Excel trên máy tính của bạn..... Bước 2: Áp dụng mã Python..... Bước 3: Chạy mã Python để nhập tệp Excel .. Tôi có thể sử dụng Python và Excel cùng nhau không?Có nhiều gói Python khác nhau để làm việc với Excel.Phần lớn trong số này là để đọc và viết các tệp Excel (ví dụ: OpenPyXL và XLSXWriter).Pyxll rất khác với các gói khác này.Thay vì chỉ cho phép bạn đọc và viết các tệp Excel, Pyxll tích hợp Python vào Excel.PyXLL integrates Python into Excel.
Làm cách nào để thêm gấu trúc vào excel?Tạo một tờ Excel.Nhập gấu trúc dưới dạng pdwriter = pd.excelwriter ('demo.xlsx', động cơ = 'xlsxwriter') writer.close () .... Thêm dữ liệu số lượng lớn vào một tờ Excel.Nhập GANDAS dưới dạng PD..... Nối dữ liệu ở cuối một tờ Excel.Mã này sẽ nối dữ liệu ở cuối Excel..... Thêm định dạng có điều kiện vào đầu ra .. |