Hướng dẫn python for data analysis data wrangling with pandas numpy and jupyter 3rd edition - python để phân tích dữ liệu dữ liệu quấn quýt với gấu trúc numpy và jupyter phiên bản thứ 3

Thỉnh thoảng sau khi tôi xuất bản cuốn sách này vào năm 2012, mọi người bắt đầu sử dụng thuật ngữ Khoa học dữ liệu như một mô tả ô cho tất cả mọi thứ, từ thống kê mô tả đơn giản đến phân tích thống kê và học máy tiên tiến hơn. Hệ sinh thái nguồn mở Python để phân tích dữ liệu (hoặc khoa học dữ liệu) cũng đã mở rộng đáng kể kể từ đó. Hiện tại có nhiều cuốn sách khác tập trung cụ thể vào các phương pháp tiên tiến hơn này. Hy vọng của tôi là cuốn sách này phục vụ như là sự chuẩn bị đầy đủ để cho phép bạn chuyển sang một tài nguyên cụ thể hơn về miền.

Phiên bản đầu tiên của cuốn sách này được xuất bản vào năm 2012, trong thời gian mà các thư viện phân tích dữ liệu nguồn mở cho Python, đặc biệt là gấu trúc, rất mới và phát triển nhanh chóng. Khi thời điểm viết phiên bản thứ hai vào năm 2016 và 2017, tôi cần cập nhật cuốn sách không chỉ cho Python 3.6 (phiên bản đầu tiên sử dụng Python 2.7) mà còn cho nhiều thay đổi trong gấu trúc đã xảy ra trong năm năm trước.

Bây giờ vào năm 2022, có ít thay đổi ngôn ngữ Python hơn (chúng tôi hiện đang ở Python 3.10, với 3.11 sắp ra mắt vào cuối năm 2022), nhưng Pandas đã tiếp tục phát triển. Trong phiên bản thứ ba này, mục tiêu của tôi là đưa nội dung cập nhật với các phiên bản hiện tại của Python, Numpy, Pandas và các dự án khác, đồng thời vẫn còn tương đối bảo thủ về việc thảo luận về các dự án Python mới hơn đã xuất hiện trong vài năm qua. Vì cuốn sách này đã trở thành một nguồn tài nguyên quan trọng cho nhiều khóa học đại học và các chuyên gia làm việc, tôi sẽ cố gắng tránh các chủ đề có nguy cơ bị lỗi thời trong vòng một hoặc hai năm. Bằng cách đó, các bản sao giấy giành được quá khó để theo dõi vào năm 2023 hoặc 2024 hoặc hơn thế nữa.

Về phiên bản mở

Phiên bản thứ 3 của Python để phân tích dữ liệu hiện có sẵn dưới dạng phiên bản HTML Access Access trên trang web này https://wesmckinney.com/book ngoài các định dạng in và sách điện tử thông thường. Phiên bản này ban đầu được xuất bản vào tháng 8 năm 2022 và sẽ cố định Errata định kỳ trong các tháng và năm tới. Nếu bạn gặp bất kỳ lỗi nào, xin vui lòng báo cáo chúng ở đây.Python for Data Analysis is now available as an “Open Access” HTML version on this site https://wesmckinney.com/book in addition to the usual print and e-book formats. This edition was initially published in August 2022 and will have errata fixed periodically over the coming months and years. If you encounter any errata, please report them here.

Nói chung, nội dung từ trang web này có thể không được sao chép hoặc sao chép. Các ví dụ mã được cấp phép MIT và có thể được tìm thấy trên GitHub hoặc Gitee cùng với các bộ dữ liệu hỗ trợ.

Nếu bạn tìm thấy phiên bản trực tuyến của cuốn sách hữu ích, vui lòng xem xét đặt hàng một bản sao giấy hoặc ebook không có DRM (ở định dạng PDF và EPUB) để hỗ trợ tác giả.

Phiên bản web này của cuốn sách được tạo ra với hệ thống xuất bản quarto.

Những gì mới trong phiên bản thứ 3?

Cuốn sách đã được cập nhật cho Pandas 1.4.0 và Python 3.10. Những thay đổi giữa phiên bản thứ 2 và 3 được tập trung vào việc đưa nội dung cập nhật với các thay đổi trong gấu trúc kể từ năm 2017.

Cập nhật lịch sử

Trang web này sẽ được cập nhật định kỳ khi nội dung phát hành sớm mới có sẵn và xuất bản sau cho các bản sửa lỗi ERRATA.

  • Ngày 19 tháng 10 năm 2022: Khắc phục liên kết bảng và thêm các liên kết ebooks.com.: Fix a table link and add eBooks.com links.
  • Ngày 20 tháng 9 năm 2022: Cập nhật trang web sau khi xuất bản cuối cùng bao gồm một vài bản sửa lỗi nhỏ.: Website update after final publication including a couple of minor errata fixes.
  • Ngày 22 tháng 7 năm 2022: Kết hợp chỉnh sửa bản sao và các cải tiến khác cho giai đoạn sản xuất của QC1 trên đường để xuất bản in ấn vào cuối mùa hè này.: Incorporate copy-editing and other improvements for “QC1” stage of production en route to publication in print later this summer.
  • Ngày 18 tháng 5 năm 2022: Cập nhật phiên bản truy cập mở với tất cả các chương. Bao gồm các chỉnh sửa từ Phản hồi Đánh giá Kỹ thuật (Cảm ơn bạn!), Nhận thức về Phiên bản thứ ba và chuẩn bị khác để làm cho cuốn sách sẵn sàng để sản xuất trên đường in sau đó vào năm 2022.: Update open access edition with all chapters. Include edits from technical review feedback (thank you!), acknowledgements for the third edition, and other preparation to make the book ready for production on its way to print later in 2022.
  • Ngày 13 tháng 2 năm 2022: Cập nhật phiên bản truy cập mở với các chương 7 đến 10.: Update open access edition with chapters 7 through 10.
  • Ngày 23 tháng 1 năm 2022: Phiên bản truy cập mở đầu tiên với các chương 1 đến 6.: First open access edition with chapters 1 through 6.

Mô tả cuốn sách

Nhận sổ tay dứt khoát để thao tác, xử lý, làm sạch và crunching bộ dữ liệu trong Python. Được cập nhật cho Python 3.10 và Pandas 1.4, phiên bản thứ ba của hướng dẫn thực hành này được đóng gói với các nghiên cứu trường hợp thực tế cho bạn biết cách giải quyết một bộ rộng các vấn đề phân tích dữ liệu một cách hiệu quả. Bạn sẽ tìm hiểu các phiên bản mới nhất của Pandas, Numpy và Jupyter trong quá trình này.

Tài nguyên nhà xuất bản

Xem/Gửi Errata

Tải xuống mã ví dụ

Nhận sổ tay dứt khoát để thao tác, xử lý, làm sạch và crunching bộ dữ liệu trong Python. Được cập nhật cho Python 3.10 và Pandas 1.4, phiên bản thứ ba của hướng dẫn thực hành này được đóng gói với các nghiên cứu trường hợp thực tế cho bạn biết cách giải quyết một bộ rộng các vấn đề phân tích dữ liệu một cách hiệu quả. Bạn sẽ tìm hiểu các phiên bản mới nhất của Pandas, Numpy và Jupyter trong quá trình này.

Được viết bởi Wes McKinney, người tạo ra dự án Python Pandas, cuốn sách này là một giới thiệu hiện đại, thiết thực về các công cụ khoa học dữ liệu trong Python. Đó là lý tưởng cho các nhà phân tích mới đối với Python và các lập trình viên Python mới đối với khoa học dữ liệu và điện toán khoa học. Tệp dữ liệu và tài liệu liên quan có sẵn trên GitHub.

Sử dụng máy tính xách tay Jupyter và shell ipython để tính toán khám phá Tìm hiểu các tính năng cơ bản và nâng cao trong Numpy Bắt đầu với các công cụ phân tích dữ liệu trong thư viện Pandas sử dụng các công cụ linh hoạt để tải, làm sạch, chuyển đổi, hợp nhất và định hình lại dữ liệu Cơ sở nhóm để cắt lát, xúc xắc và tóm tắt các bộ dữ liệu phân tích và thao tác dữ liệu chuỗi thời gian thường xuyên và bất thường Tìm hiểu cách giải quyết các vấn đề phân tích dữ liệu trong thế giới thực với các ví dụ chi tiết, kỹ lưỡng cho thấy nhiều hơn
Learn basic and advanced features in NumPy
Get started with data analysis tools in the pandas library
Use flexible tools to load, clean, transform, merge, and reshape data
Create informative visualizations with matplotlib
Apply the pandas groupby facility to slice, dice, and summarize datasets
Analyze and manipulate regular and irregular time series data
Learn how to solve real-world data analysis problems with thorough, detailed examples
show more

Python nào là tốt nhất để phân tích dữ liệu?

Pandas (phân tích dữ liệu Python) là phải trong vòng đời khoa học dữ liệu. Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với sự numpy trong matplotlib. is a must in the data science life cycle. It is the most popular and widely used Python library for data science, along with NumPy in matplotlib.

Pandas có tốt để phân tích dữ liệu không?

Pandas là một người thay đổi trò chơi cho khoa học và phân tích dữ liệu, đặc biệt nếu bạn đến Python vì bạn đang tìm kiếm một thứ gì đó mạnh mẽ hơn Excel và VBA. Pandas sử dụng các cấu trúc dữ liệu nhanh chóng, linh hoạt và biểu cảm được thiết kế để làm việc với dữ liệu quan hệ hoặc được dán nhãn cả dễ dàng và trực quan., particularly if you came to Python because you were searching for something more powerful than Excel and VBA. Pandas uses fast, flexible, and expressive data structures designed to make working with relational or labeled data both easy and intuitive.

Các nhà phân tích dữ liệu có sử dụng Numpy không?

Numpy thường được sử dụng trong khoa học dữ liệu để làm việc thông qua các phân tích và chức năng số, như tạo và làm việc với các mảng, trả lại số liệu thống kê mô tả và một loạt các mô hình học máy và công thức toán học.Bạn cũng có thể truy cập thư viện Numpy thông qua nền tảng GitHub. in order to work through numerical analyses and functions, such as creating and working with arrays, returning descriptive statistics, and a variety of machine learning models and mathematical formulas. You can also access the NumPy library through the GitHub platform.

Python có tốt để phân tích dữ liệu không?

Python là một ngôn ngữ lập trình đa năng phổ biến được sử dụng rộng rãi cho tính linh hoạt của nó, cũng như bộ sưu tập các thư viện rộng rãi của nó, có giá trị cho các phân tích và tính toán phức tạp.valuable for analytics and complex calculations.