Dự án trực quan hóa dữ liệu Python cho người mới bắt đầu

Nếu dữ liệu là dầu mới, thì những hiểu biết sâu sắc từ nó là sản phẩm tinh chế. Khi ngày càng có nhiều tổ chức sẵn sàng trích xuất thông tin chuyên sâu từ dữ liệu của họ, nhu cầu về các nhà phân tích dữ liệu đủ điều kiện tiếp tục tăng lên không chỉ về số lượng vị trí hiện có mà còn về các loại công việc phân tích dữ liệu hiện có.

Nếu bạn từng nghĩ đến việc theo đuổi sự nghiệp phân tích dữ liệu, sẽ có rất nhiều cơ hội cho bạn trong tương lai nếu bạn có được những kỹ năng cần thiết ngay bây giờ

Trong bài viết này, chúng tôi sẽ chia sẻ với bạn 20 dự án phân tích dữ liệu dành cho người mới bắt đầu mà bạn có thể sử dụng để xây dựng danh mục đầu tư của mình. Danh mục phân tích dữ liệu của bạn sẽ giúp bạn thể hiện các kỹ năng của mình với các nhà tuyển dụng tiềm năng và nổi bật giữa đám đông

Các dự án này sẽ bao gồm các kỹ năng phân tích dữ liệu được tìm kiếm nhiều nhất và các công cụ phân tích dữ liệu được sử dụng thường xuyên nhất. cụ thể là

  • Microsoft Excel
  • SQL
  • con trăn
  • R
  • Hoạt cảnh
  • điện BI

1. Xây dựng Bảng điều khiển Trung tâm cuộc gọi Excel

Bảng tính Microsoft Excel (hay Excel) đã tồn tại hơn 30 năm và vẫn là một công cụ tuyệt vời để tìm hiểu về dữ liệu. Nhiều tổ chức tiếp tục sử dụng bảng tính Excel cho các công việc hàng ngày. Vì Excel là một công cụ được sử dụng rộng rãi để phân tích dữ liệu, nên một nhà phân tích dữ liệu phải có kỹ năng Excel xuất sắc. Excel có thể được sử dụng để làm sạch, lưu trữ, phân tích, lập mô hình, trực quan hóa và tạo báo cáo về dữ liệu. Chức năng của Excel có thể được mở rộng với các phần bổ trợ để thực hiện phân tích nâng cao hơn nữa. Phần bổ trợ Analysis ToolPak dành cho phân tích kỹ thuật và thống kê phức tạp chỉ là một ví dụ

Trong dự án phân tích dữ liệu với Excel này, bạn sẽ tìm hiểu cách xử lý trước dữ liệu trong Excel và thay đổi chúng thành các loại dữ liệu ưa thích của bạn. Hơn nữa, bạn sẽ học cách tạo các bảng tổng hợp và xây dựng biểu đồ cũng như bản đồ từ chúng. Ngoài ra, bạn sẽ tìm hiểu cách thiết kế cấu trúc và nền của trang tổng quan cũng như chèn biểu đồ và bản đồ của bạn vào trang tổng quan. Cuối cùng, bạn sẽ tìm hiểu cách sử dụng chức năng bộ lọc và bộ cắt để làm cho trang tổng quan của bạn có tính tương tác

Dưới đây là các liên kết đến hướng dẫn và tập dữ liệu cho dự án này

  • Hướng dẫn bảng điều khiển Excel
  • Bộ dữ liệu trung tâm cuộc gọi

Excel là một công cụ mạnh mẽ và có thể được sử dụng để phân tích dữ liệu nâng cao. Tìm hiểu các kỹ thuật bảng tổng hợp nâng cao, dự báo, lập mô hình, trực quan hóa, v.v. trong lộ trình kỹ năng Phân tích dữ liệu bằng Excel của chúng tôi và chuyển từ người mới bắt đầu sang nâng cao trong Excel

2. Trả lời các câu hỏi kinh doanh bằng SQL

Excel là một ứng dụng tuyệt vời, nhưng nó có những hạn chế. Nó không thể xử lý các tập dữ liệu rất lớn và việc sắp xếp và phân tích dữ liệu có thể dễ dàng trở thành một bài tập đau đớn

Ngôn ngữ truy vấn có cấu trúc (SQL) khắc phục những hạn chế này của Excel. SQL có thể được sử dụng để nối một số bảng trong cơ sở dữ liệu quan hệ để có được một tập dữ liệu rất lớn. Thực hiện sắp xếp và phân tích dữ liệu bằng SQL cũng rất dễ dàng và nhanh chóng

SQL là kỹ năng phân tích dữ liệu được yêu cầu nhiều nhất, xuất hiện trong 61% tin tuyển dụng của nhà phân tích dữ liệu

Trong dự án này, bạn sẽ tìm hiểu và thực hành quy trình phân tích dữ liệu SQL bằng cách trả lời một số câu hỏi kinh doanh chạy truy vấn SQL trên sổ ghi chép Jupyter. Bạn sẽ học cách đọc và sử dụng lược đồ cơ sở dữ liệu cũng như cách truy vấn cơ sở dữ liệu để nối các bảng và trả về thông tin cụ thể từ chúng

Cửa hàng băng đĩa Chinook đang hợp tác với một hãng thu âm. Giúp họ quyết định nên đầu tư vào nghệ sĩ nào bằng cách thực hiện phân tích để xác định thể loại phổ biến nhất ở Hoa Kỳ. Sau đó, giúp cửa hàng băng đĩa xác định các cơ hội bên ngoài Hoa Kỳ bằng cách phân tích doanh số bán hàng theo quốc gia. Thực hiện phân tích dữ liệu để giúp cửa hàng băng đĩa Chinook hiểu hiệu suất của nhân viên bán hàng và giúp họ quyết định có nên đầu tư vào album hay từng bản nhạc riêng lẻ hay không

Dưới đây là các liên kết đến mã nguồn, hướng dẫn và cơ sở dữ liệu cho dự án này

  • Trả lời mã nguồn câu hỏi kinh doanh
  • Hướng dẫn dự án và cơ sở dữ liệu

Bạn có thể sử dụng danh sách 10 dự án SQL thú vị được tuyển chọn của chúng tôi để giúp bạn thực hành nhiều hơn

Kiến thức về SQL là một kỹ năng phân tích dữ liệu cơ bản mà bạn sẽ tìm thấy trong hầu hết các tin tuyển dụng của nhà phân tích dữ liệu. Tìm hiểu sâu về lập trình SQL và đạt được các kỹ năng bạn cần để thành công với tư cách là nhà phân tích dữ liệu với lộ trình kỹ năng Cơ bản về SQL của chúng tôi

3. Phân tích khách hàng và sản phẩm bằng SQL

Bạn đã chạy truy vấn SQL trên sổ ghi chép Jupyter trong dự án trước. Sổ ghi chép Jupyter rất phổ biến để hoàn thành các dự án dữ liệu vì chúng cho phép bạn tạo và chia sẻ tài liệu chứa mã, phương trình, văn bản và hình ảnh trực quan ở một nơi. Những lần khác, bạn có thể làm việc trong Môi trường phát triển tích hợp SQL (IDE) như Trình duyệt DB cho SQLite và MySQL Workbench

Trong dự án phân tích dữ liệu này, bạn sẽ học cách chạy các truy vấn trên máy của mình bằng Trình duyệt DB cho SQLite IDE. Bạn sẽ khám phá cơ sở dữ liệu bán ô tô mô hình tỷ lệ. Bạn sẽ viết các truy vấn để phân tích hiệu suất sản phẩm và thiết kế chiến lược bổ sung hàng. Bạn sẽ phân tích hành vi và thói quen chi tiêu của khách hàng, đồng thời thiết kế chiến lược truyền thông và tiếp thị tùy chỉnh nhằm tối đa hóa giá trị lâu dài của khách hàng và giảm thiểu chi phí tiếp thị

Dưới đây là các liên kết đến mã nguồn, hướng dẫn và cơ sở dữ liệu cho dự án này

  • Mã nguồn phân tích khách hàng và sản phẩm
  • Hướng dẫn dự án và cơ sở dữ liệu

4. Xây dựng cơ sở dữ liệu cho các báo cáo tội phạm bằng PostgreSQL

Bạn đã thực hành lập trình SQL với công cụ cơ sở dữ liệu SQLite trong các dự án SQL trước đây của mình. SQLite là một trong những công cụ cơ sở dữ liệu được sử dụng nhiều nhất trên thế giới. Nó nhẹ và không yêu cầu máy chủ chạy. Những tính năng này làm cho nó rất phổ biến cho các ứng dụng di động

SQLite là một công cụ cơ sở dữ liệu đơn giản và có các hạn chế tương tranh. Chỉ một người có thể thay đổi cơ sở dữ liệu bất kỳ lúc nào, hạn chế nhiều quyền truy cập. PostgreSQL giải quyết giới hạn ghi đồng thời của công cụ cơ sở dữ liệu SQLite

Trong dự án phân tích dữ liệu này, bạn sẽ học cách xây dựng cơ sở dữ liệu để lưu trữ dữ liệu bằng PostgreSQL. Bạn sẽ bắt đầu bằng việc thiết kế các bảng và lược đồ cơ sở dữ liệu. Sau đó, bạn sẽ tìm hiểu cách tải dữ liệu từ tệp CSV vào bảng cơ sở dữ liệu. Tiếp theo, bạn sẽ tìm hiểu cách đặt đặc quyền cho từng nhóm người dùng theo nguyên tắc đặc quyền tối thiểu. Cuối cùng, bạn sẽ kiểm tra thiết lập cơ sở dữ liệu của mình bằng cách chạy và phân tích kết quả đầu ra của các truy vấn SQL

Dưới đây là các liên kết đến mã nguồn, hướng dẫn và dữ liệu cho dự án này

  • Xây dựng cơ sở dữ liệu cho mã nguồn báo cáo tội phạm
  • hướng dẫn dự án
  • Dữ liệu tội phạm Boston

Bạn có thể tìm thấy các dự án SQL khác của chúng tôi được liệt kê tại đây. Khám phá và hoàn thành các dự án này để nâng kỹ năng SQL của bạn lên một tầm cao mới

5. Phân tích trang Wikipedia

Cho đến nay, bạn đã làm việc với các tệp Excel và cơ sở dữ liệu. Có các định dạng tệp khác mà dữ liệu của bạn có thể xuất hiện. Giả sử dữ liệu của bạn có sẵn trên internet trên một số trang web. Bạn có thể cạo trang web để lấy dữ liệu của mình hoặc lưu các trang web ở định dạng HTML

Trong dự án này, bạn sẽ học cách phân tích tài liệu HTML với dữ liệu được lưu từ các trang Wikipedia. Bạn sẽ tìm hiểu cách làm sạch dữ liệu của mình bằng cách xóa đầu trang, chân trang và các đánh dấu không liên quan. Làm việc với thư viện BeautifulSoup, bạn sẽ học cách trích xuất dữ liệu của mình từ các trang HTML bằng các thẻ cụ thể. Cuối cùng, bạn sẽ học cách làm sạch và phân tích dữ liệu được trích xuất từ ​​mỗi tài liệu HTML

Dưới đây là các liên kết đến mã nguồn và hướng dẫn cho dự án này

  • Phân tích mã nguồn trang Wikipedia
  • hướng dẫn dự án

6. Tìm kiếm số liệu thống kê NBA trên web bằng Python

Không có dữ liệu thì không có phân tích dữ liệu. Dữ liệu là huyết mạch của một dự án phân tích dữ liệu. Đôi khi, dữ liệu chúng tôi cần cho dự án của chúng tôi có thể không có sẵn. Chúng tôi cần thu thập dữ liệu từ các trang web trên internet

Quét web là quá trình lấy dữ liệu từ các trang web. Đó là một kỹ năng thu thập dữ liệu vô giá giúp phân biệt các nhà phân tích dữ liệu giỏi với những người tuyệt vời. Nhà tuyển dụng sẽ cảm thấy yên tâm rằng bạn có các kỹ năng cần thiết để thu thập dữ liệu cần thiết cho các dự án của bạn từ internet

Trong dự án phân tích dữ liệu này, bạn sẽ học cách cạo dữ liệu từ một số trang web. Bạn sẽ học cách sử dụng các yêu cầu và thư viện selen để quét web. Tiếp theo, bạn sẽ tìm hiểu cách kiểm tra các thành phần trên trang web, phân tích cú pháp tài liệu HTML sang thư viện BeautifulSoup và trích xuất dữ liệu từ các thẻ cụ thể. Bạn sẽ tải dữ liệu vào DataFrames của gấu trúc và lưu dưới dạng tệp CSV để sử dụng trong phân tích của mình

Dưới đây là các liên kết đến mã nguồn và video hướng dẫn cho dự án này

  • Web cạo mã nguồn số liệu thống kê NBA
  • Video hướng dẫn

Khám phá các trận đấu bóng đá trên web của chúng tôi từ dự án Ngoại hạng Anh để thực hành

Quét web là một kỹ năng quan trọng đối với bất kỳ nhà phân tích dữ liệu nào trong hộp công cụ của họ. Chúng tôi đề xuất khóa học API và Web Scraping trong Python của chúng tôi để giúp bạn bắt đầu

7. Làm sạch dữ liệu thống kê NBA bằng Python và Pandas

Dữ liệu trong thế giới thực và dữ liệu được lấy từ internet không sạch. Chúng yêu cầu tiền xử lý để đặt chúng ở định dạng mà các thư viện thống kê, học máy và trực quan hóa có thể xử lý

Dự án này là sự tiếp nối của dự án trước. Tại đây, bạn sẽ làm việc với các tệp CSV chứa dữ liệu bạn đã thu thập từ một số trang web. Làm việc với thư viện pandas, bạn sẽ tìm hiểu cách xóa các ký tự không liên quan khỏi dữ liệu của mình, xử lý các giá trị bị thiếu, chuyển đổi các tính năng thành loại dữ liệu phù hợp, chọn tập hợp con các tính năng bạn cần từ mỗi DataFrame và hợp nhất chúng. Khi kết thúc dự án, bạn sẽ có sẵn dữ liệu được xử lý trước để máy học và phân tích thống kê

Dưới đây là các liên kết đến mã nguồn và video hướng dẫn cho dự án này

  • Làm sạch mã nguồn dữ liệu NBA
  • Video hướng dẫn

Bạn sẽ dành phần lớn thời gian để dọn dẹp và xử lý trước dữ liệu với tư cách là nhà phân tích dữ liệu. Đăng ký vào lộ trình kỹ năng Làm sạch dữ liệu trong Python của chúng tôi và học các kỹ năng để làm sạch, chuyển đổi và trực quan hóa dữ liệu của bạn một cách hiệu quả

8. Tìm thị trường tốt nhất để quảng cáo

Sau khi thành thạo Excel và SQL, công cụ quan trọng tiếp theo mà nhà phân tích dữ liệu phải thêm vào bộ công cụ của họ là kiến ​​thức về ngôn ngữ lập trình. Python và R là những ngôn ngữ lập trình phổ biến nhất để phân tích dữ liệu

Ngôn ngữ lập trình chỉ đơn giản là công cụ để hoàn thành công việc phân tích dữ liệu của bạn. Chúng tôi không có ưu tiên nào giữa Python và R. Bạn có thể học cả hai trên nền tảng của chúng tôi. Bài viết này trình bày một so sánh khách quan giữa R và Python để giúp bạn quyết định mình nên học cái nào

Kiến thức thống kê được liệt kê là một trong 8 kỹ năng Phân tích dữ liệu mà nhà tuyển dụng muốn các nhà phân tích dữ liệu thể hiện. Vì vậy, các nhà phân tích dữ liệu tham vọng phải có khả năng thực hiện phân tích thống kê bằng một hoặc nhiều ngôn ngữ lập trình này

Trong dự án phân tích dữ liệu này, bạn sẽ sử dụng ngôn ngữ lập trình Python để thực hiện phân tích xác suất và thống kê nhằm giúp một công ty e-Learning tìm được thị trường tốt nhất để quảng cáo các khóa học lập trình của họ

Bạn sẽ thực hiện thống kê mô tả–ước tính giá trị trung bình, trung vị, chế độ, phương sai và phân phối tần suất–để hiểu rõ hơn về dữ liệu của mình

Bạn cũng sẽ thực hiện thống kê theo quy định bằng cách điều tra vị trí, mật độ và khả năng chi tiêu của khách hàng tiềm năng của công ty. Trong quá trình này, bạn sẽ học cách đối phó với các ngoại lệ ảnh hưởng không tương xứng và làm sai lệch kết quả phân tích theo quy định của bạn

Không xử lý các ngoại lệ dẫn đến diễn giải sai lệch. Nếu ai đó hành động dựa trên kết quả gây hiểu lầm của bạn, thì kết quả thường rất nghiêm trọng – chẳng hạn như tổn thất tài chính. Bạn cũng làm tổn hại danh tiếng của mình với tư cách là một nhà phân tích dữ liệu có năng lực

Cuối cùng, bạn sẽ đề xuất các thị trường mà công ty e-Learning này nên quảng cáo từ kết quả phân tích thống kê của bạn

Dưới đây là các liên kết đến mã nguồn, hướng dẫn và dữ liệu cho dự án này

  • Thị trường tốt nhất để quảng cáo trong mã nguồn
  • hướng dẫn dự án
  • Dữ liệu khảo sát lập trình viên mới

Mở rộng kiến ​​thức của bạn về xác suất và thống kê, đồng thời tìm các dự án thú vị khác trong lộ trình kỹ năng về Xác suất và Thống kê với Python của chúng tôi

9. Ứng dụng di động để nghiện xổ số

Nhiều khái niệm thống kê và học máy được triển khai bằng cách sử dụng một số kiến ​​thức cơ bản về xác suất. Không có gì ngạc nhiên khi kiến ​​thức về xác suất và thống kê là những kỹ năng cốt lõi cần có của một nhà phân tích dữ liệu

Trong dự án này, chúng ta sẽ đi sâu vào thế giới xác suất bằng cách điều tra tỷ lệ trúng xổ số. Bạn sẽ giúp một viện y tế chuyên điều trị chứng nghiện cờ bạc phát triển logic cho ứng dụng dành cho thiết bị di động của mình. Ứng dụng di động sẽ giúp mọi người ước tính tốt hơn cơ hội trúng xổ số. Bạn sẽ sử dụng lý thuyết xác suất để ước tính cơ hội trúng giải độc đắc với một hoặc nhiều vé và cơ hội trúng giải nhỏ hơn với các số trùng khớp từ 2 đến 5

Dưới đây là các liên kết đến mã nguồn và hướng dẫn cho dự án này

  • Ứng dụng di động cho mã nguồn nghiện xổ số
  • hướng dẫn dự án

10. Xây dựng hệ thống đề xuất phim bằng Python

Hệ thống khuyến nghị ở khắp mọi nơi trên internet. Khi Netflix đề xuất một chương trình truyền hình hoặc Amazon đề xuất bạn mua một cuốn sách, hệ thống đề xuất sẽ hoạt động bí mật. Chúng thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) – một lĩnh vực con của máy học

Là một nhà phân tích dữ liệu, bạn có thể thấy mình đang xây dựng các hệ thống đề xuất vì chúng được sử dụng rộng rãi. Điều quan trọng là xây dựng hệ thống này từ đầu để hiểu cách chúng hoạt động

Trong dự án phân tích dữ liệu này, bạn sẽ xây dựng một hệ thống đề xuất phim bằng bộ dữ liệu MovieLens. Bạn sẽ tải tập dữ liệu của mình vào DataFrame của gấu trúc và thực hiện các thao tác làm sạch phần tử thông minh bằng cách sử dụng các biểu thức thông thường

Các thuật toán học máy không hoạt động tốt với dữ liệu văn bản. Chúng ta phải tìm cách biểu diễn văn bản bằng số. Bạn sẽ tìm hiểu cách sử dụng thuật toán vector hóa văn bản Thuật ngữ tần số mật độ nghịch đảo tần số (TF-IDF) để biểu diễn dữ liệu văn bản bằng số. Tiếp theo, bạn sẽ tìm hiểu cách sử dụng thước đo khoảng cách tương tự cosin để đánh giá điểm tương đồng. Cuối cùng, bạn sẽ xây dựng một bảng điều khiển tương tác để xuất kết quả của mình

Dưới đây là các liên kết đến mã nguồn và video hướng dẫn

  • Mã nguồn hệ thống đề xuất phim
  • Video hướng dẫn và dữ liệu

Công việc hàng ngày của bạn với tư cách là nhà phân tích dữ liệu sẽ liên quan đến phân tích dự đoán. Kiến thức về học máy sẽ cho phép bạn thực hiện các tác vụ này tốt hơn. Chúng tôi đề xuất lộ trình kỹ năng Học máy trung cấp trong Python để nâng cao kỹ năng lập mô hình dự đoán của bạn

11. Dự đoán MVP NBA

Phân tích dự đoán là một phần công việc hàng ngày của nhà phân tích dữ liệu. Có nhiều thuật toán học máy cũng như có nhiều nhiệm vụ phân tích dự đoán. Chúng ta sẽ khám phá thêm các thuật toán học máy cho các nhiệm vụ phân tích dự đoán bằng cách sử dụng dữ liệu thống kê NBA từ dự án 7

Trong dự án này, chúng tôi sẽ sử dụng dữ liệu thống kê NBA để dự đoán Cầu thủ giá trị nhất (MVP) tại NBA. Chúng tôi sẽ sử dụng thuật toán hồi quy sườn núi và hồi quy rừng ngẫu nhiên. Trước tiên, chúng tôi sẽ tải tệp CSV vào DataFrame của gấu trúc, dọn dẹp và chuyển đổi các tính năng. Tiếp theo, chúng ta sẽ tìm hiểu cách chọn các yếu tố dự báo để tránh rò rỉ dữ liệu – một trong những vấn đề chính trong học máy

Tiếp theo, chúng tôi sẽ đào tạo các thuật toán hồi quy của mình và chọn các số liệu phù hợp để đánh giá hiệu suất của mô hình. Cuối cùng, chúng tôi sẽ tạo một kiểm tra ngược để xác thực hiệu suất mô hình của chúng tôi trong một thời gian

Dưới đây là các liên kết đến mã nguồn, video hướng dẫn và dữ liệu cho dự án này

  • Dự đoán mã nguồn NBA MVP
  • Video hướng dẫn
  • Dữ liệu MVP của người chơi

12. Phân tích xếp hạng phim với R

Có một cuộc tranh luận đang diễn ra về ngôn ngữ lập trình nào phù hợp nhất cho khoa học dữ liệu và phân tích. Mặc dù Python là ngôn ngữ lập trình phổ biến nhất, R được tối ưu hóa cho phân tích thống kê, tính toán khoa học và trực quan hóa

Tại sao bạn nên học R? . Nó cũng có nhiều gói được kiểm tra nghiêm ngặt để thực hiện các tác vụ phân tích dữ liệu. Đầu năm, nhóm của tôi đã phải sử dụng gói R cho một phần của nhiệm vụ lập mô hình toán kinh tế lượng nâng cao vì chúng tôi không thể tìm thấy gói tương đương Python tốt

Học R rất đáng

Trong dự án này, bạn sẽ học cách cạo và trích xuất dữ liệu từ trang web bằng gói rvest. Bạn cũng sẽ tìm hiểu cách tiền xử lý dữ liệu được thực hiện trong R. Bạn sẽ phân tích dữ liệu theo các loại dữ liệu thích hợp, xóa các ký tự không liên quan và xử lý các giá trị bị thiếu. Cuối cùng, bạn sẽ tải dữ liệu của mình vào một khung dữ liệu và trực quan hóa phân phối của chúng bằng gói ggplot

Đây là mã nguồn, hướng dẫn và trang web sẽ được loại bỏ cho dự án này

  • Phân tích mã nguồn xếp hạng di chuyển
  • hướng dẫn dự án
  • trang web

Cho dù R hay Python là ngôn ngữ ưa thích của bạn, chúng tôi đã bảo vệ bạn. Hoàn thiện việc quét web của bạn với các kỹ năng R bằng cách đăng ký API của chúng tôi và Quét web với đường dẫn kỹ năng R

13. Chiến thắng nguy hiểm với R

Công việc của bạn với tư cách là nhà phân tích dữ liệu có thể liên quan đến việc điều tra kết quả thử nghiệm. Một công ty gần đây đã thay đổi giao diện người dùng và nhận thấy mọi người dành nhiều thời gian hơn trên trang web của họ. Nhiệm vụ của bạn có thể là điều tra xem đây có phải là kết quả của những thay đổi được thực hiện đối với giao diện người dùng hay không. Để thực hiện cuộc điều tra của mình, bạn rút ra các giả thuyết không có giá trị và thay thế. Sau đó, bạn kiểm tra xem quan sát từ dữ liệu có ý nghĩa thống kê hay do ngẫu nhiên

Trong dự án này, bạn sẽ học cách xây dựng các giả thuyết và kiểm tra ý nghĩa thống kê của chúng. Bạn sẽ làm việc với dữ liệu từ chương trình truyền hình nổi tiếng “Jeopardy. ” Bạn sẽ kiểm tra xem một người tham gia xuất hiện trong chương trình có nên tập trung vào một lĩnh vực chủ đề cụ thể, một số loại câu hỏi nhất định và câu hỏi có đính kèm một giá trị tiền nhất định hay không

Đây là mã nguồn, hướng dẫn và dữ liệu cho dự án này

  • Chiến thắng mã nguồn nguy hiểm
  • hướng dẫn dự án
  • dữ liệu nguy hiểm

Tìm hiểu thêm về thử nghiệm giả thuyết và tìm các dự án xác suất và thống kê thú vị khác trong Xác suất và Thống kê với lộ trình kỹ năng R của chúng tôi

14. Dự đoán giá bán căn hộ với R

Các nhà phân tích dữ liệu thường thấy mình đang làm việc với các nhiệm vụ phân tích dự đoán. Ngôn ngữ lập trình R cũng tuyệt vời cho các phân tích dự đoán. Nó có nhiều gói được phát triển tốt cho máy học

Trong dự án phân tích dữ liệu này, bạn sẽ học cách sử dụng các gói máy học R để đưa ra dự đoán. Bạn sẽ làm việc với dữ liệu bán tài sản của Thành phố New York. Bạn sẽ tiền xử lý và khám phá dữ liệu để hiểu sâu hơn về nó. Tiếp theo, bạn sẽ thực hiện mô hình hồi quy tuyến tính để dự đoán giá nhà chung cư ở mỗi quận của Thành phố New York và tìm hiểu cách diễn giải số liệu thống kê tóm tắt của mô hình của bạn

Dưới đây là các liên kết đến mã nguồn, hướng dẫn và dữ liệu cho dự án này

  • Dự đoán mã nguồn giá bán chung cư
  • hướng dẫn dự án
  • Dữ liệu bán tài sản NYC

Tham gia các khóa học Mô hình hóa hồi quy tuyến tính trong R và Cơ bản về học máy trong R để tìm hiểu thêm về mô hình dự đoán với học máy trong R

15. Phân tích dữ liệu cháy rừng với R

Trực quan hóa dữ liệu là một kỹ năng phân tích dữ liệu rất quan trọng. Chúng ta có thể dễ dàng xác định các mẫu và xu hướng trong dữ liệu khi chúng được trình bày trực quan. Trực quan hóa dữ liệu cũng là một cách rất tốt để truyền đạt kết quả phân tích của bạn

Ngôn ngữ lập trình R là một công cụ rất mạnh để trực quan hóa dữ liệu. Nó có rất nhiều gói trực quan hóa dữ liệu và với một vài dòng mã, chúng ta có thể tạo bất kỳ loại trực quan hóa nào

Trong dự án này, bạn sẽ sử dụng gói ggplot để thực hiện phân tích dữ liệu khám phá với bộ dữ liệu cháy rừng. Bạn sẽ tạo các biểu đồ đơn biến và hai biến để hiểu rõ hơn về dữ liệu. Bạn sẽ học cách sử dụng các biểu đồ trực quan để xác định các giá trị ngoại lệ. Bạn sẽ tạo các biểu đồ đồ họa để trả lời các câu hỏi như thời gian nào trong tháng xảy ra nhiều đám cháy nhất và yếu tố nào gây ra các vụ cháy rừng nghiêm trọng

Dưới đây là các liên kết đến nguồn, hướng dẫn và dữ liệu cho dự án này

  • Phân tích mã nguồn cháy rừng
  • hướng dẫn dự án
  • Dữ liệu cháy rừng

Một biểu đồ có giá trị bằng vạn lời nói. Nhận các kỹ năng trực quan hóa dữ liệu quan trọng mà bạn cần để thành công với tư cách là nhà phân tích dữ liệu với Trực quan hóa dữ liệu với lộ trình kỹ năng R của chúng tôi

16. Bảng điều khiển phân tích khách hàng với Tableau

Các nhà phân tích dữ liệu phải chia sẻ những phát hiện của họ với các bên liên quan trong dự án của họ. Các công cụ trực quan hóa dữ liệu giúp các nhà phân tích dữ liệu truyền đạt hiệu quả kết quả phân tích của họ

Mặc dù chúng ta có thể trực quan hóa dữ liệu bằng Excel, R và Python, nhưng các công cụ kinh doanh thông minh (BI) như Tableau và Power BI vẫn có những ưu điểm riêng. Chúng có khả năng mở rộng, nhanh chóng và tích hợp cao. Các công cụ BI này có thể dễ dàng tích hợp với Excel, cơ sở dữ liệu, lưu trữ đám mây và các định dạng tài liệu khác. Chúng cũng có thể được sử dụng để tạo bảng điều khiển có tính tương tác cao được lưu trữ trên máy chủ của họ. Chỉ với một cú nhấp chuột, bạn có thể truy cập các trang tổng quan này

Trong hướng dẫn này, bạn sẽ tạo trực quan hóa với Tableau bằng cách sử dụng dữ liệu của khách hàng. Bạn sẽ học cách. định dạng cột trong Tableau;

Dưới đây là các liên kết đến video hướng dẫn, bảng điều khiển và dữ liệu cho dự án phân tích dữ liệu miễn phí này với Tableau

  • Hướng dẫn bảng điều khiển phân tích khách hàng
  • bảng điều khiển dự án
  • dữ liệu khách hàng

17. Bảng điều khiển Airbnb với Tableau 1

Tập luyện giúp hoàn hảo hơn. Chúng tôi sẽ thực hiện phân tích mô tả nhiều hơn với Tableau với dữ liệu Airbnb từ các quận của Thành phố New York. Dự án này là hai lần. Trong phần này của dự án, bạn sẽ chuyển đổi các cột thành các loại dữ liệu thích hợp và đi sâu vào trực quan hóa các đối tượng địa lý

Khi kết thúc dự án, bạn sẽ tạo một bản đồ về giá thuê trung bình của các căn hộ Airbnb, dựa trên mã zip của chúng và biểu đồ thanh ngang của các khu vực có xếp hạng cao nhất và tình trạng sẵn có của giường

Dưới đây là các liên kết đến video hướng dẫn, bảng điều khiển và dữ liệu cho dự án phân tích dữ liệu miễn phí này với Tableau

  • Hướng dẫn bảng điều khiển Airbnb
  • bảng điều khiển dự án
  • Dữ liệu Airbnb New York

18. Bảng điều khiển Airbnb với Tableau 2

Trong phần này của dự án, chúng ta sẽ tạo một biểu đồ chuỗi thời gian để phân tích những thay đổi về giá thuê trung bình. Bạn sẽ học các kỹ thuật định dạng biểu đồ cho phép bạn tạo các hình ảnh trực quan để truyền đạt kết quả của bạn một cách chính xác. Tiếp theo, bạn sẽ tìm hiểu cách thiết kế trang tổng quan với tất cả các biểu đồ mà bạn đã tạo và cách sử dụng bộ lọc để làm cho trang tổng quan của bạn có tính tương tác

Dưới đây là các liên kết đến video hướng dẫn, bảng điều khiển và dữ liệu cho dự án phân tích dữ liệu miễn phí này với Tableau

  • Hướng dẫn bảng điều khiển Airbnb
  • bảng điều khiển dự án
  • Dữ liệu Airbnb New York

Khả năng truyền đạt kết quả của bạn tốt là một kỹ năng phân tích dữ liệu quan trọng. Đạt được các kỹ năng bạn cần để xác định các mẫu và xu hướng trong dữ liệu của bạn và truyền đạt kết quả phân tích của bạn thông qua trực quan hóa trong Data Visualization với lộ trình kỹ năng Tableau của chúng tôi

19. Bảng điều khiển và báo cáo Power BI cho Domino's Pizza

Power BI là một công cụ kinh doanh thông minh được phát triển bởi Microsoft. Nó là một công cụ trực quan hóa dữ liệu phổ biến được các nhà phân tích dữ liệu sử dụng để truyền đạt những hiểu biết sâu sắc của họ về dữ liệu. Các sản phẩm của Microsoft được sử dụng trong hầu hết các tổ chức. Một trong những lợi thế của việc sử dụng Power BI là khả năng tích hợp dễ dàng với các sản phẩm và dịch vụ văn phòng khác của Microsoft

Trong dự án này, bạn sẽ tạo báo cáo Power BI và bảng điều khiển với dữ liệu bán hàng của Domino's Pizza. Bạn sẽ tìm hiểu cách nhập dữ liệu vào Power BI, chuyển đổi các cột của mình thành các loại dữ liệu phù hợp và xóa các cột không mong muốn. Tiếp theo, bạn sẽ tìm hiểu cách quản lý các mối quan hệ và sử dụng Biểu thức phân tích dữ liệu (DAX) của Power BI để thực hiện các phép tính. Sau đó, bạn sẽ tìm hiểu cách tạo bảng điều khiển và tạo báo cáo trong Power BI

Đây là liên kết đến hướng dẫn và dữ liệu cho dự án phân tích dữ liệu miễn phí này với Power BI

  • Bảng điều khiển pizza Domino với dữ liệu

20. Bảng điều khiển bán hàng Zomato với Power BI

Đây là một dự án Power BI khác để củng cố các kỹ năng của bạn. Trong dự án này, bạn sẽ đóng vai trò là nhà phân tích dữ liệu cho một khách hàng muốn thành lập công ty kinh doanh nhà hàng ở thành phố Bangalore. Bạn sẽ tạo một bảng điều khiển tương tác cho phép khách hàng đưa ra quyết định sáng suốt nhằm tối đa hóa lợi nhuận. Bảng điều khiển của bạn sẽ giúp khách hàng chọn loại nhà hàng, địa điểm ưa thích và món ăn. Bảng điều khiển sẽ cho khách hàng biết khả năng sinh lời trung bình và chi tiêu của khách hàng, đồng thời giúp họ xác định đối thủ cạnh tranh tiềm năng

Dưới đây là các liên kết đến video hướng dẫn và dữ liệu cho dự án phân tích dữ liệu miễn phí này

  • Video hướng dẫn bán hàng Zomato
  • Dữ liệu bán hàng Zomato

Tăng cường kỹ năng phân tích và trực quan hóa dữ liệu của bạn trong Power BI bằng cách đăng ký vào lộ trình kỹ năng Phân tích dữ liệu với Microsoft Power BI của chúng tôi. Khóa học này được phát triển với sự cộng tác của Microsoft và khóa học này chứa tất cả những gì bạn cần để vượt qua kỳ thi chứng chỉ Nhà phân tích Microsoft Power BI PL-300

mang đi

Trong bài viết này, chúng ta đã thảo luận về 20 dự án phân tích dữ liệu thú vị bao gồm cả kỹ năng và công cụ mà nhà phân tích dữ liệu nên có. Những dự án này là những dự án bắt buộc phải có cho danh mục nhà phân tích dữ liệu của bạn vì chúng chứng minh cho nhà tuyển dụng thấy rằng bạn có các kỹ năng cần thiết để thành công với tư cách là nhà phân tích dữ liệu

Sự nghiệp phân tích dữ liệu đang mở rộng và có nhiều loại vai trò phân tích khác nhau. Nếu bạn chưa quen với phân tích dữ liệu và chưa học những kiến ​​thức cơ bản, chúng tôi khuyên bạn nên Phân tích dữ liệu bằng Excel, kỹ năng SQL, Kiến thức cơ bản về Python để phân tích dữ liệu và Trực quan hóa dữ liệu với đường dẫn kỹ năng Tableau. Bạn sẽ học các kỹ năng cần thiết nhất để có được công việc đầu tiên với tư cách là nhà phân tích

Học các kỹ năng Excel, SQL và Power BI thực tế và trở thành nhà phân tích kinh doanh với lộ trình nghề nghiệp Chuyên viên phân tích kinh doanh của chúng tôi. Kiến thức về ngôn ngữ lập trình sẽ cho phép bạn nâng cao kỹ năng phân tích dữ liệu của mình. Chúng tôi khuyên các nhà phân tích dữ liệu có tham vọng đăng ký Nhà phân tích dữ liệu trong Python và Nhà phân tích dữ liệu trong con đường sự nghiệp của R

Khi bạn đạt được tiến bộ trong sự nghiệp với tư cách là nhà phân tích, bạn sẽ làm việc ở các vai trò phân tích dữ liệu khác nhau và sử dụng các công cụ khác nhau. Trong bài viết này, chúng ta đã thảo luận về các dự án phân tích dữ liệu liên quan đến phổ kỹ năng cần có của các nhà phân tích dữ liệu. Như họ nói, “may mắn là điều xảy ra khi sự chuẩn bị gặp cơ hội. ” Hãy hoàn thành các dự án danh mục đầu tư này và ghi danh vào lộ trình nghề nghiệp và kỹ năng của chúng tôi, đồng thời tối đa hóa cơ hội nhận được bất kỳ vai trò phân tích dữ liệu nào của bạn

phân tích dữ liệuKhoa học dữ liệuDự án khoa học dữ liệu

Dự án trực quan hóa dữ liệu Python cho người mới bắt đầu

Thông tin về các Tác giả

Aghogho Monorien

Aghogho là một kỹ sư và Quant đầy tham vọng làm việc về các ứng dụng của trí tuệ nhân tạo trong tài chính

Làm thế nào python có thể được sử dụng để trực quan hóa dữ liệu?

Python cung cấp một số thư viện vẽ sơ đồ, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu tương tự khác với các tính năng khác nhau để tạo các biểu đồ hấp dẫn, tùy chỉnh và nhiều thông tin nhằm trình bày dữ liệu một cách đơn giản nhất .

Dự án trực quan hóa dữ liệu là gì?

Trực quan hóa dữ liệu trình bày các cụm dữ liệu theo bố cục dễ hiểu . Chúng có thể là tĩnh (như đồ thị, biểu đồ, đồ họa thông tin, v.v. ) hoặc tương tác (trong đó người xem tìm hiểu sâu và tương tác với phần trình bày để hiểu thêm).

Công cụ trực quan hóa dữ liệu nào tốt nhất cho python?

Thư viện Python phổ biến nhất để trực quan hóa dữ liệu .
Matplotlib. Matplotlib là một trong những thư viện trực quan hóa dữ liệu python tốt nhất để tạo trực quan hóa mạnh mẽ nhưng đơn giản. .
âm mưu. .
sinh ra biển. .
GGplot. .
bàn thờ. .
Bokeh. .
Pygal. .
Geoplotlib

Làm cách nào tôi có thể thực hành trực quan hóa dữ liệu?

Để biết thêm mẹo, hãy đọc 10 phương pháp hay nhất để có trang tổng quan hiệu quả. .
Chọn biểu đồ và đồ thị phù hợp cho công việc. .
Sử dụng các mẫu có thể đoán trước cho bố cục. .
Kể chuyện dữ liệu một cách nhanh chóng với tín hiệu màu sắc rõ ràng. .
Kết hợp các manh mối theo ngữ cảnh với hình dạng và thiết kế. .
Chiến lược sử dụng kích thước để trực quan hóa các giá trị