Python cho nhà phân tích tài chính

Học phân tích dữ liệu đang phát triển trở nên phổ biến đối với rất nhiều người nhằm mục đích phục vụ cho công việc cũng như tìm kiếm việc làm. Tuy nhiên, không ít người cảm thấy sợ hãi khi không có dữ liệu thực tế để thực hiện hành động cũng như chưa biết phân tích dữ liệu như thế nào. Trong bài này mình sẽ cùng nhau tìm hiểu một bộ dữ liệu mẫu về tài chính và thực thi một số phân tích cơ bản

Nếu bạn chưa biết phân tích dữ liệu là gì thì đọc bài viết trước của mình về nghề Data Analyst và mini project về phân tích

Toàn bộ bài viết này mình sẽ chia ra làm 2 phần bao gồm

  • Phần 1. giới thiệu về bộ dữ liệu và các câu hỏi gợi ý cho việc phân tích
  • Phần 2. hướng dẫn cụ thể cách trả lời những câu hỏi trên bằng Tableau và tổng hợp những ý kiến ​​của mọi người

Mục Lục

Cho you new

Phân vùng dữ liệu với nhiều nguồn dữ liệu khác nhau

Trước khi các bạn kéo xuống và tải bộ dữ liệu về mình có một số lưu ý với các bạn mới

Nếu các bạn định hướng làm về phân tích dữ liệu thì gần như các bạn sẽ phải học cách làm việc với mọi bộ dữ liệu khác nhau. Các bạn sẽ không biết doanh nghiệp sắp tới bạn sẽ đi làm thuộc lĩnh vực gì, họ sử dụng phần mềm nào và đối tác cũng như khách hàng của họ là ai. Dù chí là mô hình kinh doanh cũng tạo nên sự khác biệt lớn

Dù các bạn có làm trong cùng một lĩnh vực đi nữa thì dữ liệu cũng sẽ không giống nhau giữa các công ty

Do đó, ngay từ khi bắt đầu, các bạn nên học cách làm việc với càng nhiều bộ dữ liệu khác nhau thì càng tốt. Điều này sẽ giúp các bạn có kỹ năng thích ứng với môi trường mới một cách nhanh nhất. Tư duy phân tích là một kỹ năng cực kỳ quan trọng

Khi các bạn đi xin việc, thông thường các bạn sẽ có khoảng 3 tháng để thử việc. Đây là khoảng thời gian để các bạn học thích ứng với dữ liệu của công ty cũng như học thêm kiến ​​thức về lĩnh vực bạn làm. Nếu chỉ có thể phân tích trên một số loại dữ liệu nhất định, bạn sẽ rất dễ bị mất điểm với màn

Ví dụ sơ lược cho các bạn xem các loại dữ liệu mà các bạn có thể sẽ đụng tới. Các hóa đơn bán hàng;

Nên thực hiện việc phân tích dữ liệu với càng nhiều loại dữ liệu khác nhau thì càng tốt chứ không phải chỉ nên dừng lại ở những dữ liệu Bán hàng cơ bản

Maindata resource

Data Tài chính mẫu – Data-fun. com

Đầu tiên các bạn có thể tải xuống mẫu tài liệu tài chính ngân hàng tại liên kết này. Tuy bộ dữ liệu này không lớn [~1400 hàng], nhưng mình nghĩ nó vẫn đủ để các bạn có thể thực hiện nhiều phân loại khác nhau

Nhiệm vụ đầu tiên của bạn là đọc hiểu các trường dữ liệu của nó

  • Mỗi trường dữ liệu [cột] có ý nghĩa như thế nào?
  • Data type is what?
  • Có cần phải xử lý gì trước khi phân tích không?
  • Có điều gì đặc biệt trong những trường này không? . Đ]

Điều này cực kỳ quan trọng và cực kỳ cần thiết trước khi các bạn bắt đầu công việc phân tích. Đừng bao giờ bỏ qua bước này trước khi phân tích bất kỳ loại dữ liệu nào. Các bạn có thể sẽ bỏ sót rất nhiều thông tin quan trọng

=> Tìm hiểu kỹ dữ liệu trước khi phân tích

Thực hiện phân tích dữ liệu hành động

Sau khi đã tìm hiểu kỹ bộ dữ liệu, bước tiếp theo là sẽ thực hiện các phân loại khác nhau. Tùy vào mục đích mà các câu hỏi cũng khác nhau rất nhiều và từ đó chúng ta có thể có nhiều bảng điều khiển hoặc báo cáo khác nhau

Trước khi tiếp tục đọc, mình muốn các bạn dừng lại ở đây và thử tự đặt cho mình những câu hỏi mà bạn nghĩ sẽ phù hợp với bộ dữ liệu trên

Tự đặt câu hỏi

Kỹ năng tự đặt câu hỏi cho Data Analyst

Để thực hiện công việc này, bạn hãy thử tưởng tượng nếu bạn

  • là một người giữ vị trí cao trong công ty và muốn biết tình hình tổng hợp về các số liệu, bạn sẽ cần những thông tin gì?
  • là một người quản lý và muốn biết chi tiết tình hình để tìm kiếm nguyên nhân và giải pháp, bạn sẽ muốn có những con số gì?
  • muốn có một bản báo cáo phân tích sự thay đổi theo từng năm/quý/tháng thì bạn cần làm gì?
  • cần so sánh giữa các hạng mục, khu vực hoặc trạng thái của sự kiện?
  • các bạn cứ tự suy nghĩ bổ sung nhé

Luyện tập kỹ năng tự đặt câu hỏi này cũng khá quan trọng nhé các bạn vì khi đi làm không phải lúc nào câu hỏi cũng rõ ràng cho mình cả

Không ít trường hợp, người khác chỉ gửi đến yêu cầu khá chung chung và mình cần tự tìm kiếm câu hỏi sao cho phù hợp. Và vì mình hiểu rõ dữ liệu hơn nên mình sẽ biết được một số thông tin hữu ích mà người dùng không ngờ tới

Mình cũng cần biết được một số câu hỏi sẽ không phù hợp dù nghe qua thì khá đơn giản và dễ làm. Từ đó mình có thể cung cấp thông tin bổ sung tốt hơn cho người hỏi

Ví dụ sau là câu hỏi thực tế mà mình gặp

Một nhân viên bán hàng liên hệ và muốn biết số lượng “hóa đơn” [mình đổi lại để dễ hình dung] mỗi ngày từ đầu năm đến nay và so sánh sự khác nhau với cùng ngày tháng [VD 24/02/20 . Nhìn qua thì câu hỏi khá đơn giản và cũng “bình thường”. Nhưng thực chất thì phần lớn hóa đơn của doanh nghiệp mình là ở các ngày trong tuần, cuối tuần rất thấp

Thực tế này dẫn đến câu hỏi trên không còn phù hợp vì lúc này chúng ta có thể so sánh kết quả của 2 nhóm khác nhau. VD ngày 24/02/2020 rơi vào Thứ 2 còn 24/02/2019 rơi vào Chủ Nhật. Do đó, nên kết quả so sánh không còn ý nghĩa nữa mà sẽ dễ dàng dẫn đến những kết luận sai

Sau đó mình đề nghị đổi yêu cầu thành so sánh theo tuần hoặc tháng, lúc này mọi thứ trở nên rõ ràng hơn. Phân tích dữ liệu không chỉ làm theo những gì người khác yêu cầu mà chúng ta còn cần cung cấp thêm thông tin chi tiết sao cho phù hợp

Gợi ý cụ thể câu hỏi

Hy vọng các bạn đã có sẵn cho mình một loạt các câu hỏi khác nhau dựa trên những gợi ý phía trên. Tiếp theo đây mình sẽ liệt kê một số câu hỏi cụ thể để các bạn có thể thực hiện hành động phân tích dữ liệu

Những câu hỏi phân tích dưới đây cũng khá cơ bản và thường gặp. Các bạn có thể chọn một vài trong số đó để phân tích hoặc toàn bộ cũng được

  • Trong 5 năm gần đây nhất [2009-2014] khu vực nào có tỷ lệ tăng/giảm nhiều nhất về số lượng Sự kiện / tổng giá trị Doanh thu thuần
  • Trong vòng 3 năm gần đây nhất, so sánh tổng giá trị Doanh thu thuần/số lượng sự kiện của từng tháng với cùng tháng năm trước đó [so sánh theo năm]
  • So sánh Tỷ lệ Phê duyệt/Từ chối theo từng loại Danh mục;
  • Có tháng nào đặc biệt có số lượng sự kiện cao hơn/thấp hơn Chắc chắn so với các tháng còn lại trong năm không?
  • Top 10 sự kiện có Doanh thu thuần cao nhất đang được xem xét
  • Tổng doanh thu thuần/số sự kiện thay đổi theo từng tháng
  • Mình stop ở đây nhé. Bạn nào nghĩ ra được câu hỏi hay thì comment bên dưới mình bổ sung thêm lên đây

Data partition and posted results

Thiết kế bảng điều khiển phù hợp

Các bạn có thể sử dụng bất kỳ cách nào mà bạn thích hoặc thấy phù hợp, kể cả làm trên Excel. Đối với các bạn mới thì mình khuyến khích các bạn sử dụng BI Tool cho những công việc như thế này vì nó sẽ dễ dàng hơn và đỡ tốn thời gian hơn. Nếu các bạn thích sử dụng R/Python thì tùy thích

Mục tiêu cuối cùng là thiết kế một bảng điều khiển cho những câu hỏi ở trên. Các bạn có thể tạo nhiều tùy chọn Dashboard, nhưng lưu ý là nên gom những câu hỏi có tính tương đồng vào một

Sau khi thực hiện xong thì lên mạng và comment phía dưới cho mọi người cùng học hỏi nhé. Ai có câu hỏi gì thì cũng comment bên dưới để mình và mọi người cùng giải đáp

Dành cho những bạn mới muốn tìm hiểu và sử dụng Tableau để phân tích thì tham khảo các bài viết dưới đây nhé

Chủ Đề