Hướng dẫn data insight python - Python insight dữ liệu

Trong lĩnh vực lập trình nói chung và nhiều lĩnh vực khác nói riêng thì kiến thức gần như vô tận, luôn thay đổi và cập nhật những cái mới, nhất là trong lĩnh vực công nghệ. Vì vậy, xác định được hướng đi trong quá trình học tập, nghiên cứu là cần thiết.

Lộ trình học là bước đi đầu tiên và căn bản nhất để ta định hướng được nội dung cần học, để không bị lang mang, lệch hướng với những kiến thức không cần thiết.

Như bài đầu tiên mình chia sẽ, để học tốt trong lĩnh vực này, bạn cần phải học nhiều kỹ năng trong đó kỹ năng sử dụng công cụ phân tích dữ liệu là phần trong số đó.

Bạn có thể sử dụng các tool phân tích dữ liệu đóng gói sẵn như: Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, QlikView, hoặc sử dụng ngôn ngữ lập trình Python, R  để phân tích. Mỗi công cụ đều có ưu nhược điểm khác nhau mà mình không đề cập ở đây, các bạn có thể tìm hiểu thêm trên mạng để đưa ra cho mình quyết định nên chọn công cụ nào. Nếu chọn Python, Welcome các bạn! chúng ta cùng đi tiếp nhé!

Lộ trình học Data Analytics

Đầu tiên là Python cơ bản

Python là ngôn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, được tạo ra bởi Guido van Rossum. Nó dễ dàng để tìm hiểu và đang nổi lên như một trong những ngôn ngữ lập trình nhập môn tốt nhất cho người lần đầu tiếp xúc với ngôn ngữ lập trình. Python hoàn toàn tạo kiểu động và sử dụng cơ chế cấp phát bộ nhớ tự động.

Python có cấu trúc dữ liệu cấp cao mạnh mẽ và cách tiếp cận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng. Cú pháp lệnh của Python là điểm cộng vô cùng lớn vì sự rõ ràng, dễ hiểu và cách gõ linh động làm cho nó nhanh chóng trở thành một ngôn ngữ lý tưởng để viết script và phát triển ứng dụng trong nhiều lĩnh vực, ở hầu hết các nền tảng.

về phần này thì có lẽ khi vào đây, đa số các bạn đã nắm rõ, nên mình không nhắc lại nhiều. nếu là các bạn mới tiếp xúc thì mình để link học tại đây để các bạn bắt đầu.

Thư viện Numpy ( xử lý tính toán)

Sau khi nắm vững kiến thức Python cơ bản xong, bạn tiếp tục qua bài thư viện Numpy

Numpy là một thư viện lõi phục vụ cho khoa học máy tính của Python, hỗ trợ cho việc tính toán các mảng nhiều chiều, có kích thước lớn với các hàm đã được tối ưu áp dụng lên các mảng nhiều chiều đó. Numpy đặc biệt hữu ích khi thực hiện các hàm liên quan tới Đại Số Tuyến Tính. là một thư viện lõi phục vụ cho khoa học máy tính của Python, hỗ trợ cho việc tính toán các mảng nhiều chiều, có kích thước lớn với các hàm đã được tối ưu áp dụng lên các mảng nhiều chiều đó. Numpy đặc biệt hữu ích khi thực hiện các hàm liên quan tới Đại Số Tuyến Tính.

Bạn sẽ sử dụng thường xuyên thư viện này trong quá trình học tập và làm việc

Thư viện Pandas ( Xử lý dữ liệu có cấu trúc )

Pandas là một thư viện mã nguồn mở được phát triển bởi Wes McKinney vào năm 2008. Pandas được sử dụng chủ yếu để thao tác, phân tích và làm sạch dữ liệu dữ liệu. Pandas cung cấp rất nhiều cấu trúc dữ liệu có cấu trúc dạng bảng (table) cũng như các phép tính hỗ trợ thao tác dữ liệu số và dữ liệu thời gian(time series). Hỗ trợ nhập xuất nhiều loại định dạng dữ liệu như csv file, excel file, sql, Json…

Các thư viện trực quan hóa dữ liệu

Một thành phần không thể thiếu trong quá trình hậu phân tích đó là trực quan những số liệu đó ở dạng đồ thị hay biểu đồ. Biểu đồ rõ ràng, giúp ta trình bày đúng trọng tâm phân tích. Trực quan dữ liệu trong python có nhiều thư viện hỗ trợ, tùy theo như cầu sử dụng mà ta nên chọn thư viện trực quan phù hợp

Thư viện Matplotlib

Matplotlib là một trong những thư viện Python phổ biến nhất được sử dụng để trực quan hóa dữ liệu. Nó là một thư viện đa nền tảng để tạo các đồ thị 2D từ dữ liệu trong các mảng. Matplotlib được viết bằng Python và sử dụng NumPy

Bạn thử tưởng tượng một file dữ liệu khoảng vài MB chứa toàn những con số, khi vẽ ra đồ thị từ dữ liệu này, nhìn hình ảnh đồ thị được vẽ ra bạn hiểu ngay vài MB dữ liệu đó có ý nghĩa gì. Tuyệt vời đúng không nào?

Tuy vậy, để đồ thị được vẽ ra trực quan và sống động hơn và hữu ích hơn khi bạn thuyết trình, nên kết hợp thêm với thư viện Seaborn và một vài thư viện tương tác với biểu đồ khác như Cufflinks, Pltoly…

Thư viện Seaborn

Đây là thư viện cần thiết để bạn trực quan hóa dữ liệu một cách tốt nhất khi báo cáo hoặc thuyết trình.

Lưu ý: Seaborn nên được coi là một phần bổ sung cho matplotlib chứ không phải là một sự thay thế luôn  Matplotlib bạn nhé. Khi ta sử dụng seaborn, rất có thể ta sẽ thường gọi các hàm matplotlib trực tiếp để vẽ các đồ thị đơn giản đã có sẵn qua không gian tên pyplot. Do đó, sự kết hợp 2 thư viện này sẽ rất hữu ích cho bạn với những kiểu đồ thị phức tạp.: Seaborn nên được coi là một phần bổ sung cho matplotlib chứ không phải là một sự thay thế luôn  Matplotlib bạn nhé. Khi ta sử dụng seaborn, rất có thể ta sẽ thường gọi các hàm matplotlib trực tiếp để vẽ các đồ thị đơn giản đã có sẵn qua không gian tên pyplot. Do đó, sự kết hợp 2 thư viện này sẽ rất hữu ích cho bạn với những kiểu đồ thị phức tạp.

Bên cách đó còn một vài thư viện hỗ trợ tương tác với biểu đồ như Cufflink hay Plotly  ( rất hay khi bạn làm thuyết trình nhé, vì dữ liệu được tương tác ngay trên biểu đồ) mình cũng đưa vào phần học thư viện seaborn để các bạn dễ tổng hợp kiến thức

Tư duy phân tích dữ liệu

Về tư duy phân tích chỉ có rèn luyện mới có được. Chúng ta thương xuyên vấp phải vấn đề, giải quyết nó, tập trung suy nghĩ vào nó thì từ từ nó hình thành tư duy trong bạn

Do đó không cách nào khác ngoài cách thường xuyên làm bài tập, làm và làm…

Trong các bài sau nếu có thời gian, mình sẽ chia sẻ thêm các bài tập lấy dữ liệu từ kaggle.com để phân tích. Sau khi học xong các công cụ xử lý này, các bạn có thể lên Kaggle tìm kiếm dữ liệu mình quan tâm để thực hành nhé!

Kỹ năng báo cáo – thuyết trình

Ok rồi các bạn! Giờ đây sau khi đã có dữ liệu phân tích và trực quan đầy đủ, công việc cuối cùng là bạn phải truyền đạt nội dung này đến với lãnh đạo, phòng ban trong công ty, hoặc khách hàng cá nhân.

Viết và sắp xếp nội dung

Bạn phải viết ra một file báo cáo phân tích, hoặc file thuyết trình  như PowerPoint chẳng hạn, đòi hỏi bạn phải có kỹ năng viết đúng trọng tâm, mạch lạc, rõ ràng và đúng chính tả

Sắp xếp nội dung có bố cục, trình tự, hình ảnh minh họa phù hợp cho từng chủ đề

Nói và truyền đạt thông tin

Nếu bạn chỉ làm báo cáo thì phần kỹ năng nói đơn giản hơn, chỉ giải thích nội dung trong báo cáo cho lãnh đạo hoặc các phòng ban liên quan

Nhưng bạn phải thuyết trình nội dung phân tích đầy đủ đòi hỏi bạn có kỹ năng thuyết trình

  • Không nói khớp, không bị hội chứng sợ đứng trước đông người ( khi bạn bị hội chứng này thì không tập trung được khi thuyết trình) và thật may, bạn có thể tự rèn luyện vấn đề này bằng các video chia sẻ trên youtube
  • Nói rõ ràng, không nhanh cũng không chậm, nhấn giọng khi tới những phần thuyết trình quan trọng. Kỹ năng này có thể luyện tập bằng cách đọc các bài văn, bài diễn thuyết.
  • Sử dụng ngôn ngữ cơ thể để tăng hiệu quả truyền đạt thông tin ( kiểu như mấy ông Tây hay dùng đó bạn)

Bạn nên luyện tập thêm kỹ năng này vì nó rất quan trọng, theo kiểu như bạn hiểu rất rõ vấn đề đó (vì bạn là người phân tích mà) nhưng khi truyền đạt đến người khác thì người ta không hiểu hết ý của bạn hoặc hiểu sai thì rất là nguy hiểm.

Chúc các bạn học tốt