Giành chiến thắng trong cuộc thi Kaggle trong Python Datacamp GitHub

Bạn luôn nhận được các bài báo và phiên họp của Omdena về lập trình, tự động hóa và các giải pháp thực tế. Bài viết này tập trung vào một khía cạnh hơi khác. Bài viết này không chỉ dành cho các Nhà khoa học dữ liệu có kinh nghiệm mà còn dành cho những người mới bước chân vào lĩnh vực này và những người muốn theo đuổi sự nghiệp của mình trong Khoa học dữ liệu vì nó bao gồm các dự án khoa học dữ liệu GitHub cho cấp độ mới bắt đầu và nâng cao

GitHub là gì?

Điều gì có thể hữu ích hơn cho bạn với tư cách là nhà phát triển hơn là theo dõi các phiên bản khác nhau của mã và tệp cấu hình của bạn? . Tại đây, GitHub rất hữu ích vì nó cho phép bạn dễ dàng khôi phục khi xảy ra lỗi và cũng giúp bạn cộng tác với các bên liên quan khác. Đó là lý do tại sao nó là công cụ mà các Nhà khoa học dữ liệu sử dụng cho Dự án khoa học dữ liệu của họ

Danh mục đầu tư GitHub cung cấp cho các công ty ý tưởng về những dự án bạn đã thực hiện và loại mã bạn có thể viết. Đây là cách GitHub giúp bạn giành được cuộc phỏng vấn chuyên nghiệp và bạn sẽ luôn học được điều gì đó mới bằng cách đóng góp cho các Dự án GitHub nguồn mở.  

Top 10 dự án Khoa học dữ liệu GitHub có mã nguồn năm 2022

GitHub là một nơi tuyệt vời để làm việc trong dự án Khoa học dữ liệu. Dưới đây là danh sách các dự án Khoa học dữ liệu mà bạn có thể thực hiện. Bạn cũng có thể đăng ký các khóa học từ Trường Omdena để biết thêm thông tin và ứng dụng thực tế

5 dự án khoa học dữ liệu trên GitHub cho người mới bắt đầu

Phần này sẽ trình bày một bộ sưu tập các ý tưởng dự án khoa học dữ liệu cho người mới bắt đầu và người mới trong Python và Khoa học dữ liệu. Các dự án khoa học dữ liệu Python này sẽ giúp bạn xây dựng nền tảng vững chắc về Khoa học dữ liệu

1. THU HOẠCH

Nền kinh tế của một quốc gia phụ thuộc nhiều vào nông nghiệp. Sự tăng trưởng của các sản phẩm có liên quan trực tiếp đến số lượng và chất lượng của cây trồng. Dự án này là một trang web dựa trên học máy khuyến nghị nông dân

  • Các loại cây trồng tốt nhất để phát triển,
  • Các loại phân bón tốt nhất để sử dụng,
  • Và các bệnh do cây trồng mắc phải

Sau đây là các chức năng mà trang web này thực hiện

  • Đề xuất cây trồng – Khi người dùng cung cấp thông tin chi tiết về đất, ứng dụng sẽ dự đoán anh ta nên trồng loại cây nào
  • Khuyến nghị về phân bón –  Khi người dùng nhập dữ liệu về đất và loại cây trồng mà người đó đang trồng, ứng dụng sẽ đề xuất các biện pháp cải thiện bằng cách xác định loại đất nào thiếu hoặc thừa
  • Dự đoán bệnh cây trồng – Khi người dùng nhập hình ảnh lá cây bị bệnh, ứng dụng sẽ dự đoán loại bệnh, hiển thị kết quả cùng với thông tin cơ bản về bệnh và gợi ý cách chữa

Bạn có thể tìm hiểu thêm về dự án bằng liên kết này

2. Các ứng dụng và bài đánh giá trên Cửa hàng Google Play

Có hàng ngàn ứng dụng dành cho thiết bị di động dễ sử dụng và có thể mang lại lợi nhuận. Do đó, ngày càng có nhiều ứng dụng được sản xuất. Trong sổ ghi chép này, chúng tôi đã so sánh hơn mười nghìn ứng dụng trong Google Play thuộc các danh mục khác nhau để tiến hành nghiên cứu toàn diện về ngành ứng dụng Android. Một tìm kiếm sâu được thực hiện cho các mẫu trong dữ liệu để điều tra các chiến lược tăng trưởng và duy trì

Tập dữ liệu cho dự án Khoa học dữ liệu dành cho người mới bắt đầu này chứa hai tệp

1. Tệp CSV chứa tất cả thông tin chi tiết về các ứng dụng trên Google Play. 13 tính năng mô tả một ứng dụng nhất định

2. Một tệp CSV khác chứa 100 bài đánh giá cho mỗi ứng dụng là hữu ích nhất trước tiên.  

Mã nguồn. Chợ ứng dụng Android trên Google Play. aiwithqasim/datascience-projects [github. com]

3. Ứng dụng dự đoán bệnh tiểu đường

Bệnh tiểu đường là một vấn đề sức khỏe nghiêm trọng đang ngày càng gia tăng do lối sống lười vận động của chúng ta. Nó có thể được chữa khỏi thông qua điều trị y tế đúng cách nếu được phát hiện kịp thời, nếu không chúng ta sẽ phải đối mặt với những tác dụng phụ. Chúng ta có thể sử dụng máy học rất đáng tin cậy và hiệu quả trong việc phát hiện sớm bệnh tiểu đường

Dự án này sử dụng một mô hình dự đoán để dự đoán liệu một người có bị tiểu đường hay không dựa trên nhiều yếu tố như

  • Mức insulin
  • Tuổi
  • mang thai
  • BMI [Chỉ số khối cơ thể]

Một số mục tiêu của dự án này là

  • Thu thập dữ liệu
  • Phân tích mô tả
  • Tiền xử lý và trực quan hóa dữ liệu
  • Mô hình hóa dữ liệu
  • Đánh giá và triển khai mô hình

Bạn có thể tìm hiểu thêm về dự án bằng liên kết này.                           

4. Khám phá Bitcoin. tiền điện tử

Hàng trăm sáng kiến ​​tương tự dựa trên công nghệ chuỗi khối đã được phát triển kể từ khi Bitcoin ra mắt vào năm 2008. Chúng được gọi là tiền điện tử [cũng là tiền xu hoặc tiền điện tử theo tiếng lóng trên Internet].  

Một số hiện cực kỳ có giá trị, trong khi một số khác có tiềm năng trở nên vô cùng giá trị trong tương lai. Thật vậy, kể từ ngày 6 tháng 12 năm 2017, Bitcoin có mức định giá thị trường hơn 200 tỷ đô la

CẢNH BÁO. Thị trường tiền điện tử rất biến động và bất kỳ khoản tiền nào bạn đầu tư có thể biến mất chỉ sau một đêm. Tiền điện tử được nêu ở đây có thể có nhiều vấn đề khác nhau [định giá quá cao, kỹ thuật, v.v. ]. Xin đừng hiểu sai đây là lời khuyên đầu tư

Mã nguồn. Khám phá-the-Bitcoin-Cryptocurrency-Mark. Iqra Baloch/dự án khoa học dữ liệu [github. com]

5. Dự đoán loài ong ngây thơ

Máy có thể phát hiện ra sự khác biệt giữa ong mật và ong vò vẽ không?

Khả năng nhận dạng các loài ong từ ảnh chụp là công việc sẽ giúp các nhà nghiên cứu thu thập dữ liệu thực địa nhanh chóng và hiệu quả hơn trong tương lai. Những con ong thụ phấn đóng một vai trò thiết yếu trong hệ sinh thái và nông nghiệp, và những căn bệnh như rối loạn sụp đổ thuộc địa đe dọa sự sống còn của chúng. Chúng ta có thể hiểu rõ hơn về tần suất và sự mở rộng của những loài côn trùng quan trọng này bằng cách xác định các loại ong khác nhau trong tự nhiên

Sổ ghi chép sẽ hướng dẫn bạn xây dựng một mô hình có thể tự động nhận dạng ong mật và ong vò vẽ sau khi nhập và xử lý trước ảnh

Mã nguồn. Dự đoán loài ong ngây thơ. Iqra Baloch/dự án khoa học dữ liệu [github. com]

Xây dựng danh mục đầu tư của bạn với các dự án trong thế giới thực từ Omdena

5 dự án khoa học dữ liệu nâng cao trên GitHub

Làm việc trên các dự án Khoa học dữ liệu nâng cao là phương pháp lý tưởng để phát triển danh mục đầu tư của bạn ngay từ đầu và triển khai các sáng kiến ​​Khoa học dữ liệu của riêng bạn. Dưới đây là một số dự án Khoa học dữ liệu bạn nên bắt đầu

1. Phát hiện trái cây thối [DRF] bằng cách sử dụng xử lý hình ảnh trong Python

Nguồn. Trung bình

Khi nói đến Trái cây và Rau củ, người tiêu dùng thích trái cây tươi hơn là những trái cây bị hư hỏng. Để làm cho cuộc sống của con người dễ dàng hơn, cần có một hệ thống phát hiện trái cây hiệu quả. Vì vậy, sử dụng Trí tuệ nhân tạo [AI] và Thị giác máy tính, một chương trình máy tính để bàn có tên “Phát hiện trái cây thối [DRF]” được cung cấp để giúp nông dân và người bán trái cây phát hiện sớm trái cây bị bệnh.  

Mã nguồn. Phát hiện-Trái cây thối-DRF-Sử dụng-Xử lý hình ảnh-Python. IqraBaluch/Phát hiện-trái cây thối-DRF-Using-Image-Processing-Python [github. com]

2. Dự án theo dõi bàn tay thời gian thực. Truyền thôngỐng

Nguồn. Omdena

MediaPipe là một trong những công nghệ mới nhất được giới thiệu. Đó là khung nguồn mở của Google được sử dụng để xử lý phương tiện. Nó đa nền tảng, hay có thể nói nó thân thiện với nền tảng. Nó có thể chạy trên các máy chủ Android, iOS, web và YouTube

Bạn có thể tìm hiểu thêm về cách sử dụng MediaPipe bằng liên kết này

Dưới đây là liên kết đến mã nguồn của dự án này

Mã nguồn. IqraBaluch/Real_Time_Hand_Tracking. Đây là dự án Real Time Hand Tracking của Computer Vision sử dụng MediaPipe. [github. com]

3. Phát hiện gian lận giao dịch

Dự án này dự đoán liệu một giao dịch có phải là gian lận hay không bằng cách sử dụng mô hình máy học

Phát hiện gian lận giao dịch

Các bước khác nhau liên quan để thực hiện dự án này được đề cập dưới đây

  • Mô tả dữ liệu – Lúc đầu, dữ liệu sẽ được thu thập và xử lý trước. Sau đó, một số phép toán của thống kê mô tả sẽ được thực hiện như trung bình, chế độ, độ lệch chuẩn, độ lệch, v.v.
  • Kỹ thuật tính năng – Bản đồ tư duy giúp tạo ra các tính năng mới, do đó cải thiện phân tích dữ liệu khám phá
  • Lọc dữ liệu – Trong bước này, các cột và hàng không cần thiết sẽ bị loại bỏ không phải là một phần của doanh nghiệp
  • Phân tích dữ liệu khám phá – Bước này bao gồm phân tích đơn biến, phân tích hai biến và phân tích đa biến để hiểu cơ sở dữ liệu
  • Chuẩn bị dữ liệu – Trong bước này, dữ liệu được chuẩn bị và chuyển đổi cho mô hình học máy bằng cách mã hóa, lấy mẫu quá mức và thay đổi tỷ lệ
  • Lựa chọn tính năng – Bước này liên quan đến việc giảm kích thước của tập dữ liệu để giảm tình trạng thừa mô hình
  • Mô hình học máy – Bước này nhằm mục đích đào tạo các thuật toán học máy để chúng có thể dự đoán chính xác dữ liệu
  • Tinh chỉnh siêu tham số – Điều quan trọng là phải tinh chỉnh các siêu tham số để cải thiện hiệu suất mô hình và điểm tổng thể
  • Kết luận – Trong bước này, mô hình được thử nghiệm bằng cách sử dụng dữ liệu chưa nhìn thấy và hiệu suất của nó được phân tích
  • Triển khai mô hình – Bước này liên quan đến việc tạo API bình và lưu mô hình cũng như các chức năng sẽ được triển khai trong API

Bạn có thể tìm hiểu thêm về dự án bằng liên kết này

4. Dự đoán đột quỵ tim

Dự án này xây dựng một ứng dụng dự đoán xác suất một người bị đột quỵ hoặc suy tim. Người dùng nhập thông tin cá nhân và sức khỏe cần thiết trên thiết bị y tế. Khi ứng dụng dự đoán xác suất suy tim, mô hình sẽ sử dụng thông tin này và hiển thị kết quả chi tiết về tình trạng bệnh nhân. Mô hình này cũng đưa ra các biện pháp phòng ngừa và lời khuyên có thể cho người dùng về việc đến gặp chuyên gia y tế

Người dùng tiềm năng của ứng dụng là

  • Phòng khám/ bệnh viện
  • Các chuyên gia y tế
  • Các thiết bị y tế

Hơn nữa, ứng dụng sử dụng tính năng nhập dữ liệu để thu thập dữ liệu dựa trên đầu vào của người dùng. Nó cũng sử dụng đào tạo lại đường ống để đào tạo lại mô hình để làm cho nó chính xác hơn, vì vậy nó có thể dự đoán chính xác bệnh suy tim

Bạn có thể tìm hiểu thêm về dự án bằng liên kết này

5. Phát hiện khẩu trang. Dự án khoa học dữ liệu Github

Face Mask Detection sử dụng Mạng nhân tạo để xác định xem người dùng có đeo khẩu trang hay không. Để phát hiện những người không đeo mặt nạ, phần mềm có thể được liên kết với bất kỳ camera phát hiện mặt nạ IP hiện có hoặc mới nào.  

Người dùng ứng dụng cũng có thể thêm khuôn mặt và số điện thoại để nhận thông báo nếu những người xung quanh họ không đeo khẩu trang. Có thể gửi thông báo cho quản trị viên nếu camera ghi lại khuôn mặt không xác định

Mã nguồn. Phát hiện khẩu trang. Phát hiện khẩu trang bằng MobileNet [github. com]

Phần kết luận

Đây là một số dự án Khoa học dữ liệu trên GitHub mà bạn có thể sao chép để cải thiện khả năng Khoa học dữ liệu của mình trong thế giới thực. Bạn càng dành nhiều thời gian và công sức cho các dự án Khoa học dữ liệu, bạn sẽ càng trở nên giỏi hơn trong việc xây dựng mô hình

câu hỏi thường gặp

Q. Làm cách nào để sử dụng Github cho các dự án Khoa học dữ liệu?

Các nhà khoa học dữ liệu sử dụng GitHub để cộng tác, thực hiện các thay đổi đối với dự án một cách “an toàn” và theo dõi các thay đổi theo thời gian cũng như khôi phục chúng nếu cần. Theo truyền thống, các nhà khoa học dữ liệu không bắt buộc phải sử dụng GitHub vì quá trình đưa thuật toán vào sản xuất [trong đó kiểm soát phiên bản là điều cần thiết] thường được giao cho nhân viên kỹ thuật dữ liệu hoặc công nghệ.  

Tuy nhiên, các dung dịch như H20. ai và Google Cloud AI Platform giúp các nhà khoa học dữ liệu tạo mã của họ dễ dàng hơn nhiều để triển khai các mô hình vào sản xuất và đóng góp cho các dự án nguồn mở. Do đó, biết cách sử dụng kiểm soát phiên bản ngày càng trở nên quan trọng đối với các nhà khoa học dữ liệu

Bạn có thể sử dụng Github cho các dự án Khoa học dữ liệu bằng cách làm theo các bước bên dưới

  • Bắt đầu với nhánh chính và tạo nhánh mới bằng các lệnh bên dưới
git checkout master
git pull
git checkout -b branch-name
  • Cập nhật, Thêm, Cam kết và Đẩy các thay đổi của bạn vào kho lưu trữ từ xa bằng các lệnh bên dưới
git status
git add 
git commit -m 'your message'
git push -u origin branch-name
  • Tạo yêu cầu Kéo và thực hiện các thay đổi đối với yêu cầu Kéo bằng các lệnh bên dưới
git status
git add 
git commit -m 'your message'
git push

Q. Làm cách nào để tạo danh mục khoa học dữ liệu trên Github?

Khi bạn tạo tài khoản của mình trên GitHub, bạn nên bắt đầu làm việc với các dự án dành cho người mới bắt đầu. Sau khi hoàn thành một số dự án dành cho người mới bắt đầu, hãy bắt đầu làm các bài tập nâng cao. Sau đó bắt đầu đóng góp cho các dự án mã nguồn mở. Đây là cách bạn sẽ tìm hiểu và tạo Danh mục Khoa học Dữ liệu của mình trên Github

Q. Làm thế nào để đóng góp cho các dự án mã nguồn mở?

Là một nhà khoa học dữ liệu đầy tham vọng, bạn sẽ nổi bật trong cộng đồng nguồn mở bằng cách đóng góp cho nhiều dự án. Nó cho phép bạn nâng cao khả năng của mình đồng thời nhận được nguồn cảm hứng và sự khuyến khích từ những người cùng chí hướng.  

Thực hiện một số sàng lọc khi bạn đã chọn một dự án mà bạn muốn đóng góp. Đảm bảo rằng nó phù hợp với các tiêu chí sau để đảm bảo bạn sẽ thích làm việc với nó

1. Kiểm tra thời gian của lần xác nhận cuối cùng. Điều này sẽ cho bạn biết liệu những người bảo trì có hoạt động hay không, cũng như mất bao lâu để họ trả lời đóng góp của bạn

2. Nhìn vào số lượng người đã đóng góp

3. Kiểm tra tần suất mọi người thực hiện cam kết.  

Đó là một chỉ báo tích cực nếu bạn quan sát nhiều hoạt động gần đây vì nó cho thấy cả cộng đồng và người bảo trì đều tham gia

Nếu bạn đang dự định bước vào lĩnh vực Khoa học dữ liệu và muốn được Giáo dục về Khoa học dữ liệu, bạn có thể liên hệ ngay với nhóm Omdena thông qua các nền tảng truyền thông xã hội của chúng tôi. Nhóm truyền thông xã hội của chúng tôi luôn hoạt động và chia sẻ các dự án liên quan đến khoa học dữ liệu và cập nhật các phiên. Dưới đây là các liên kết truyền thông xã hội của chúng tôi. Kết nối và luôn cập nhật

Bạn cũng có thể đăng ký vào trường Omdena. Mục tiêu của Trường Omdena là cung cấp nền giáo dục chất lượng trong lĩnh vực Khoa học Dữ liệu, Học máy và Trí tuệ Nhân tạo đồng thời giải quyết các hạn chế về tài chính và địa lý

Chủ Đề