Python có tốt cho việc sắp xếp dữ liệu không?

Bitcoin và tiền điện tử đã có rất nhiều tin tức… nhưng với tư cách là nhà khoa học dữ liệu, chúng ta là những người theo chủ nghĩa kinh nghiệm, phải không? . Trong hướng dẫn này, chúng tôi sẽ giới thiệu các kỹ thuật phổ biến và mạnh mẽ để sắp xếp dữ liệu trong Python

Nói rộng ra, sắp xếp dữ liệu là quá trình định hình lại, tổng hợp, tách hoặc chuyển đổi dữ liệu của bạn từ một định dạng sang một định dạng hữu ích hơn

Ví dụ,. giả sử chúng ta muốn tiến hành phân tích từng bước về một chiến lược giao dịch động lượng rất thô sơ diễn ra như sau

  1. Vào đầu mỗi tháng, chúng tôi mua tiền điện tử có mức tăng giá lớn nhất trong 7, 14, 21 hoặc 28 ngày trước đó. Chúng tôi muốn đánh giá từng khoảng thời gian này
  2. Sau đó, chúng tôi giữ đúng 7 ngày và bán vị thế của mình. Xin lưu ý. đây là một chiến lược đơn giản có mục đích chỉ nhằm mục đích minh họa

Chúng ta sẽ đánh giá chiến lược này tốt như thế nào?

Đây là một câu hỏi hay để trình bày các kỹ thuật sắp xếp dữ liệu vì tất cả công việc khó khăn nằm ở việc định dạng tập dữ liệu của bạn thành định dạng phù hợp. Khi đã có bảng cơ sở phân tích [ABT] phù hợp, việc trả lời câu hỏi trở nên đơn giản

Hướng dẫn này không phải là gì

Đây không phải là hướng dẫn về chiến lược đầu tư hoặc giao dịch, cũng không phải là sự chứng thực hay chống lại tiền điện tử. Các nhà đầu tư tiềm năng nên hình thành quan điểm của riêng họ một cách độc lập, nhưng hướng dẫn này sẽ giới thiệu các công cụ để làm như vậy

Một lần nữa, trọng tâm của hướng dẫn này là về các kỹ thuật sắp xếp dữ liệu và khả năng chuyển đổi các bộ dữ liệu thô thành các định dạng giúp bạn trả lời các câu hỏi thú vị

Một mẹo nhanh trước khi chúng ta bắt đầu

Hướng dẫn này được thiết kế để được sắp xếp hợp lý và nó sẽ không đề cập đến bất kỳ một chủ đề nào quá chi tiết. Có thể hữu ích khi mở tài liệu thư viện Pandas bên cạnh bạn như một tài liệu tham khảo bổ sung

Nội dung hướng dẫn sắp xếp dữ liệu Python

Dưới đây là các bước chúng tôi sẽ thực hiện để phân tích

Bước 1. Thiết lập môi trường của bạn

Trước tiên, hãy đảm bảo rằng bạn đã cài đặt phần mềm sau trên máy tính của mình

  • Trăn 3+
  • gấu trúc
  • Jupyter Notebook [tùy chọn, nhưng nên dùng]

Chúng tôi thực sự khuyên bạn nên cài đặt Bản phân phối Anaconda, đi kèm với tất cả các gói đó. Chỉ cần làm theo hướng dẫn trên trang tải xuống đó

Khi bạn đã cài đặt Anaconda, chỉ cần khởi động Jupyter [thông qua dòng lệnh hoặc ứng dụng Bộ điều hướng] và mở một sổ ghi chép mới

Python 3+ được khuyến nghị. Anaconda nên đi kèm với phiên bản ổn định mới nhất

Bước 2. Nhập thư viện và tập dữ liệu

Hãy bắt đầu bằng cách nhập Pandas, thư viện Python tốt nhất để giải quyết vấn đề quan hệ [i. e. định dạng bảng] bộ dữ liệu. Pandas sẽ thực hiện hầu hết các công việc nặng nhọc cho hướng dẫn này

  • Mẹo. chúng tôi sẽ cung cấp cho Pandas một bí danh. Sau đó, chúng ta có thể gọi thư viện bằng pd .

con trăn

1

2

# Pandas để quản lý bộ dữ liệu

nhập gấu trúc dưới dạng pd

Tiếp theo, hãy tinh chỉnh các tùy chọn hiển thị một chút. Trước tiên, hãy hiển thị số float với 2 chữ số thập phân để làm cho các bảng ít chật chội hơn. Đừng lo lắng… đây chỉ là cài đặt hiển thị không làm giảm độ chính xác cơ bản. Hãy cũng mở rộng giới hạn cho số lượng hàng và cột được hiển thị

con trăn

1

2

3

4

5

6

# Hiển thị số float với 2 chữ số thập phân

pd. tùy chọn. hiển thị. float_format = '{. ,. 2f}'. định dạng

 

# Mở rộng giới hạn hiển thị

pd. tùy chọn. hiển thị. max_rows = 200

pd. tùy chọn. hiển thị. max_columns = 100

Đối với hướng dẫn sắp xếp dữ liệu Python này, chúng tôi sẽ sử dụng bộ dữ liệu giá do Brave New Coin quản lý và được phân phối trên Nasdaq Data Link [trước đây là Quandl]. Phiên bản đầy đủ theo dõi các chỉ số giá cho hơn 1.900 cặp giao dịch fiat-crypto, nhưng nó yêu cầu đăng ký trả phí, vì vậy chúng tôi đã cung cấp một mẫu nhỏ với dữ liệu lịch sử về một số loại tiền điện tử

Để làm theo, bạn có thể tải xuống BNC2_sample. csv. Nhấp vào liên kết đó sẽ đưa bạn đến Google Drive, sau đó chỉ cần nhấp vào biểu tượng tải xuống ở trên cùng bên phải

Khi bạn đã tải xuống tập dữ liệu và đặt vào cùng thư mục tệp với sổ ghi chép Jupyter của mình, bạn có thể chạy đoạn mã sau để đọc tập dữ liệu vào khung dữ liệu Pandas và hiển thị các quan sát ví dụ

con trăn

1

2

3

4

5

6

7

# Đọc bộ dữ liệu mẫu BNC2

df = pd. read_csv['BNC2_sample. csv',

                         tên=['Mã', 'Date', 'Open', 'High', 'Low',

                        'Đóng', 'Âm lượng',

Chủ Đề