Thao tác dữ liệu Python
Pandas được Wes McKinney phát triển tại quỹ phòng hộ AQR để cho phép phân tích nhanh dữ liệu tài chính. Pandas là một phần mở rộng của NumPy hỗ trợ các hoạt động được vector hóa cho phép thao tác nhanh thông tin tài chính Show Tôi sẽ sử dụng dữ liệu của công ty do hộp cát dành cho nhà phát triển Intrinio cung cấp. Nếu muốn làm theo, bạn có thể tìm thấy mã và dữ liệu trên Phân tích Alpha Github Repo
Làm cho dữ liệu của bạn gọn gàngMặc dù không cần thiết cho những ví dụ đơn giản này, nhưng tôi muốn giới thiệu Dữ liệu ngăn nắp. Khi làm việc với các tập dữ liệu lớn và đặc biệt là để phân tích nhân tố, bạn sẽ muốn làm cho cuộc sống của mình dễ dàng hơn và sắp xếp gọn gàng tập dữ liệu của mình bằng cách sử dụng pandas. tan chảy. Nó làm cho dữ liệu dễ phân tích hơn và thường hiệu quả hơn. Đối với những người quan tâm, có một bài viết tuyệt vời trên phương tiện về Bộ dữ liệu dọn dẹp trong Python Hoạt động chuỗi trong PandasThông thường, chúng ta sẽ cần thao tác với dữ liệu chuỗi được định dạng không chính xác. Pandas cung cấp [hoạt động chuỗi được vector hóa/trăn-cho-tài chính#vectorization). Đối với hầu hết các phép toán chuỗi, bạn cần phải làm quen với biểu thức chính quy Phương thứcMô tảgấu trúc. Loạt. str. chuỗi splitSplits trên các dấu phân cách được chỉ định. Loạt. str. replaceThay thế chuỗi khi khớp chuỗi hoặc regexpandas. Loạt. str. extractExtracts chuỗi trên khớp nhóm regexHãy thực hiện thao tác trích xuất ví dụ bằng cách kết hợp một số dữ liệu hiện có của chúng ta lại với nhau
Hoạt động nhóm. Tách-Áp dụng-Kết hợpHoạt động nhóm có thể được chia thành ba bước
Trước khi chúng tôi sử dụng gấu trúc để nhóm và sửa đổi dữ liệu của mình, hãy xem cách chúng tôi có thể thực hiện việc đếm số lượng công ty trong từng lĩnh vực bằng cách sử dụng python
nhómgấu trúc. Khung dữ liệu. groupby cung cấp cho chúng tôi cách tốt hơn để nhóm dữ liệu. groupby trả về đối tượng DataFrameGroupBy hoặc đối tượng SeriesGroupBy . Những đối tượng này có thể được coi là một nhóm. Bạn có thể thấy bên dưới sector_group. các nhóm trả về một từ điển gồm các cặp khóa/giá trị là các cung và các hàng được liên kết của chúng. Xem bên dưới nhóm tài chính chứa các hàng ([1, 6, 8, 14, 23]) tương ứng
Để chỉ ra rằng đối tượng groupby chỉ là một bản thiết kế, chúng ta có thể sao chép get_group bằng cách sử dụng iloc ________số 8
Tóm lại, groupby tạo một kế hoạch chi tiết cho phép chúng tôi chạy nhiều hoạt động hữu ích trên nhóm. Sử dụng đối tượng nhóm theo nhóm hiệu quả vì nó cho phép chúng ta có mối quan hệ một-nhiều liên quan đến việc tính giá trị nhóm Ngoài ra, chúng ta có thể sử dụng sức mạnh của Pandas và sử dụng lập chỉ mục boolean và phương pháp tổng hợp để trả về số lượng công ty trong từng lĩnh vực tổng hợpTập hợp lấy các giá trị và trả về một giá trị của thứ nguyên nhỏ hơn. Ví dụ: một hàm nhận vào một chuỗi và trả về một giá trị vô hướng duy nhất. Mọi tập hợp GroupBy ngầm hoặc rõ ràng đều có một cột nhóm, một cột tổng hợp và một cột chức năng. Các chức năng tổng hợp phổ biến được hiển thị bên dưới FunctionDescriptionmean()Tính giá trị trung bình của nhómsum()Tính tổng giá trị nhómsize()Tính kích thước nhómcount()Tính số lượng nhómstd()Độ lệch chuẩn của nhómvar()Tính phương sai của nhómsem()Sai số chuẩn của giá trị trung bình nhómdescribe()Tạo mô tả 0 1Chúng ta cũng có thể nhóm theo nhiều cột. Lưu ý rằng hàm tổng hợp được gọi tự động trên cột nhân viên vì đây là cột loại số duy nhất 2 3gấu trúc. cốt lõi. theo nhóm. Khung dữ liệu. agg cho phép chúng tôi thực hiện nhiều thao tác tổng hợp cùng một lúc bao gồm cả các thao tác tổng hợp do người dùng xác định 4 5chuyển đổiChuyển đổi trả về dữ liệu được thao tác có cùng kích thước với dữ liệu đã truyền. Có nhiều phương thức và chức năng theo ý của bạn để chuyển đổi dữ liệu, như hình bên dưới Phương thức/Chức năngDescriptionSeries. mapThay thế từng giá trị cho một sê-ri khác. applyInvoke một hàm theo nguyên tố trên một seriesDataFrame. applymapÁp dụng một chức năng theo nguyên tố cho một khung dữ liệuDataFrame. áp dụngGọi một chức năng trên mỗi cột hoặc hàngSeries. biến đổi Gọi một hàm trả về chuỗi giá trị được chuyển đổiDataFrame. biến đổi Gọi một hàm trả về khung dữ liệu của các giá trị được chuyển đổi. tan chảy Định hình lại một khung dữ liệu. Hữu ích cho việc vẽ đồ thị, hoạt động vector hóa và thu dọn dữ liệu. gấu trúc. pivot Định hình lại một khung dữ liệu. Về cơ bản là một hoạt động unmeltTrong ví dụ bên dưới, chúng tôi chuyển một hàm đã xác định find_percent và trả về chuỗi đã chuyển đổi 6 7Như với agg, chúng ta có thể truyền nhiều hàm, bao gồm cả hàm lambda 8 9Mặc dù chúng ta không thể chuyển nhiều hàm để áp dụng như với biến đổi, nhưng chúng ta có thể truy cập các cột khác bằng cách sử dụng áp dụng khi chúng ta bị giới hạn với biến đổi. Một lần nữa, tốt nhất là biết những gì có sẵn cho bạn và sử dụng công cụ tốt nhất cho công việc tại thời điểm hiện tại 0 1lọcBộ lọc trả về một tập hợp con của dữ liệu gốc. Nó hoạt động tương tự như lập chỉ mục boolean ngoại trừ thay vì hoạt động trên các hàng riêng lẻ, nó hoạt động trên các nhóm riêng lẻ. Bộ lọc phải trả về giá trị Đúng hoặc Sai cho toàn bộ nhóm. Lĩnh vực dịch vụ là lĩnh vực duy nhất có hơn 1.000.000 nhân viên 2 3Bảng tổng hợpChúng tôi có thể tạo cùng một dữ liệu ở định dạng khác bằng cách sử dụng gấu trúc. trục_bảng 4 5tham gia dữ liệuChúng ta có thể nhanh chóng nối hai khung dữ liệu thông qua nối, hợp nhất và nối. Hợp nhất là chức năng cơ bản cho tất cả các hành vi tham gia/hợp nhất. Tham gia có các giá trị mặc định hơi khác và được cung cấp như một phương thức tiện lợi Python có tốt cho thao tác dữ liệu không?Python là một phần có giá trị trong hộp công cụ của nhà phân tích dữ liệu, vì nó được thiết kế riêng để thực hiện các tác vụ lặp đi lặp lại và thao tác dữ liệu và bất kỳ ai từng làm việc với lượng dữ liệu lớn đều biết .
thao tác dữ liệu với ví dụ là gì?Thao tác dữ liệu là quá trình thay đổi hoặc chỉnh sửa dữ liệu để làm cho dữ liệu dễ đọc và có tổ chức hơn . Ví dụ: bạn có thể sắp xếp dữ liệu theo thứ tự bảng chữ cái để đẩy nhanh quá trình tìm kiếm thông tin hữu ích. Một ví dụ khác về thao tác dữ liệu là quản lý trang web.
Thao túng dữ liệu là gì?Thao tác dữ liệu là quá trình tổ chức hoặc sắp xếp dữ liệu để dễ hiểu hơn . Thao tác dữ liệu thường yêu cầu sử dụng một loại ngôn ngữ cơ sở dữ liệu được gọi là ngôn ngữ thao tác dữ liệu (DML). |