Trang web này chứa toàn văn Sổ tay Khoa học Dữ liệu Python của Jake VanderPlas;
Văn bản được phát hành theo giấy phép CC-BY-NC-ND và mã được phát hành theo giấy phép MIT
Nếu bạn thấy nội dung này hữu ích, vui lòng cân nhắc ủng hộ tác phẩm bằng cách mua sách
Mục lục¶
Lời nói đầu¶
1. IPython. Ngoài Python bình thường¶
- Trợ giúp và Tài liệu trong IPython
- Phím tắt trong IPython Shell
- Lệnh ma thuật IPython
- Lịch sử đầu vào và đầu ra
- Lệnh IPython và Shell
- Lỗi và gỡ lỗi
- Hồ sơ và mã thời gian
- Thêm tài nguyên IPython
2. Giới thiệu về NumPy¶
- Hiểu các kiểu dữ liệu trong Python
- Khái niệm cơ bản về mảng NumPy
- Tính toán trên mảng NumPy. Chức năng phổ quát
- tổng hợp. Tối thiểu, Tối đa và Mọi thứ ở giữa
- Tính toán trên mảng. Phát thanh truyền hình
- So sánh, Mặt nạ và Logic Boolean
- Lập chỉ mục ưa thích
- Sắp xếp mảng
- Dữ liệu có cấu trúc. Mảng có cấu trúc của NumPy
3. Thao tác dữ liệu với Pandas¶
- Giới thiệu đối tượng Pandas
- Lập chỉ mục và lựa chọn dữ liệu
- Hoạt động trên dữ liệu trong Pandas
- Xử lý dữ liệu bị thiếu
- Lập chỉ mục phân cấp
- Kết hợp bộ dữ liệu. Concat và Append
- Kết hợp bộ dữ liệu. Hợp nhất và tham gia
- Tổng hợp và nhóm
- Bảng tổng hợp
- Hoạt động chuỗi Vectorized
- Làm việc với chuỗi thời gian
- Gấu trúc hiệu suất cao. eval[] và truy vấn[]
- Tài nguyên khác
4. Trực quan hóa với Matplotlib¶
- Sơ đồ đường đơn giản
- Biểu đồ phân tán đơn giản
- Hiển thị lỗi
- Mật độ và đường viền
- Biểu đồ, Binnings và Mật độ
- Tùy chỉnh cốt truyện huyền thoại
- Tùy chỉnh thanh màu
- Nhiều ô con
- Văn bản và chú thích
- Tùy chỉnh đánh dấu
- Tùy chỉnh Matplotlib. Cấu hình và biểu định kiểu
- Âm mưu ba chiều trong Matplotlib
- Dữ liệu địa lý với Bản đồ cơ sở
- Trực quan hóa với Seaborn
- Tài nguyên khác
5. Học máy¶
- Học máy là gì?
- Giới thiệu Scikit-Tìm hiểu
- Siêu tham số và xác thực mô hình
- Kỹ thuật tính năng
- chuyên sâu. Phân loại Naive Bayes
- chuyên sâu. hồi quy tuyến tính
- chuyên sâu. Hỗ trợ máy Vector
- chuyên sâu. Cây quyết định và rừng ngẫu nhiên
- chuyên sâu. Phân tích thành phần chính
- chuyên sâu. học đa dạng
- chuyên sâu. phân cụm k-Means
- chuyên sâu. Mô hình hỗn hợp Gaussian
- chuyên sâu. Ước tính mật độ hạt nhân
- Đăng kí. Đường ống nhận diện khuôn mặt
- Tài nguyên học máy khác
ruột thừa. Mã hình¶
dữ liệu python-khoa học máy học thống kê học sâu jupyter pandas-dataframe khám phá-phân tích dữ liệu jupyter-notebook eda pandas khám phá dữ liệu-phân tích html-báo cáo dữ liệu-khám phá hacktoberfest pandas-lập hồ sơ dữ liệu-chất lượng dữ liệu-lập hồ sơ phân tích dữ liệu lớn
- Cập nhật16/12/2022
- con trăn
lithops-đám mây / lithops
Sao 246
- Mã số
- Vấn đề
- Yêu cầu kéo
- thảo luận
Một khung nhiều đám mây để phân tích dữ liệu lớn và các công việc song song đáng xấu hổ, cung cấp một API chung để xây dựng các ứng dụng song song trên đám mây☁️🚀
python kubernetes dữ liệu lớn đa xử lý không có máy chủ song song phân tán chức năng không có máy chủ điện toán đám mây xử lý dữ liệu lưu trữ đối tượng phân tích dữ liệu lớn đa đám mây điện toán không có máy chủ
- Cập nhật18/12/2022
- con trăn
Ashish7129 / Graph_Sampling
Sao 132
- Mã số
- Vấn đề
- Yêu cầu kéo
Lấy mẫu đồ thị là gói python chứa nhiều cách tiếp cận khác nhau để lấy mẫu biểu đồ gốc theo các kích thước mẫu khác nhau
khai thác dữ liệu mẫu python biểu đồ mạng dữ liệu lớn mạng-khoa học lấy mẫu networkx phân tích mạng phân tích mạng xã hội tìm kiếm theo chiều rộng cảm ứng bước đi ngẫu nhiên biểu đồ con phân tích dữ liệu lớn
- Cập nhật ngày 4 tháng 12 năm 2020
- con trăn
luồng không khí-plugin / pandora-plugin
Sao 25
- Mã số
- Vấn đề
- Yêu cầu kéo
Plugin cung cấp chế độ xem, toán tử, cảm biến và nhiều tính năng khác được phát triển tại Pandora Media
khoa học dữ liệu luồng không khí dữ liệu-plugin apache-airflow phân tích dữ liệu lớn
- Cập nhật ngày 3 tháng 5 năm 2018
- con trăn
arakat-cộng đồng / arakat
Sao 23
- Mã số
- Vấn đề
- Yêu cầu kéo
AREKAT - Nền tảng phát triển ứng dụng thông minh kinh doanh và phân tích dữ liệu lớn
docker hệ thống phân tán docker-swarm kinh doanh thông minh đường ống dữ liệu phân tích dữ liệu lớn dự đoán bảo trì ứng dụng gốc trên đám mây
- Cập nhật ngày 4 tháng 8 năm 2021
- con trăn
Wittline / pyspark-on-aws-emr
Nhà tài trợ
Sao 17
- Mã số
- Vấn đề
- Yêu cầu kéo
- thảo luận
Mục tiêu của dự án này là cung cấp mẫu AWS EMR sử dụng Nhóm Spot và Phiên bản theo yêu cầu mà bạn có thể sử dụng nhanh chóng. Chỉ cần tập trung vào viết mã pyspark
python aws big-data spark aws-emr pyspark dataengineering phân tích dữ liệu lớn ec2-spot emr-cluster wordcloud-generator ec2-spot-instance
- Cập nhật13/06/2022
- con trăn
ThinkBigEg / influxDB-grafana-gke
Sao 10
- Mã số
- Vấn đề
- Yêu cầu kéo
Trong hướng dẫn này, chúng tôi giải thích cách nhận phân tích năng lượng được sản xuất và tiêu thụ theo thời gian thực từ hai trình mô phỏng trạm năng lượng mặt trời bằng cách sử dụng influxDB cùng với grafana được lưu trữ trên công cụ kubernetes của google
python kubernetes iot cảm biến grafana dữ liệu lớn influxdb google-cloud-platform grafana-influxdb năng lượng mặt trời gke-cluster phân tích dữ liệu lớn google-kubernetes-engine
- Cập nhật28/10/2018
- con trăn
Dammonoit / Sinh-viên-phân-tích-sử-dụng-dữ-liệu-lớn
Sao 9
- Mã số
- Vấn đề
- Yêu cầu kéo
Dự án này phân tích và tương quan hiệu suất của học sinh với các thuộc tính khác nhau. Sau đó, cuối cùng, nó xác định thuật toán phù hợp nhất trong số chúng
phân tích thuật toán khai thác dữ liệu phân tích dữ liệu lớn phân tích hiệu suất sinh viên
- Cập nhật 1 tháng 11, 2017
- con trăn
epidataio / epidata-cộng đồng
Sao 7
- Mã số
- Vấn đề
- Yêu cầu kéo
Nền tảng khoa học dữ liệu EpiData IoT - Phiên bản cộng đồng
khoa học dữ liệu học máy học sâu trí tuệ nhân tạo nền tảng iot công nghiệp tự động hóa phân tích dữ liệu lớn phân tích iot nền tảng cảm biến đo lường
- Cập nhật 20/11/2022
- con trăn
AWS-Dữ liệu lớn-Dự án / Iot-và-Ứng dụng-dữ liệu lớn-sử dụng-aws-và-apache-kafka
Nhà tài trợ
Sao 13
- Mã số
- Vấn đề
- Yêu cầu kéo
Iot, Phân tích dữ liệu lớn sử dụng Apache-kafka, spark và các dịch vụ aws khác
iot aws sql apache-spark aws-kinesis apache-kafka phân tích dữ liệu lớn
- Cập nhậtTháng 9 11, 2020
- con trăn
PotatoSpudowski / Hướng dẫn-tập-trung-đến-lưu-phân-biệt-và-xử-lý-của-dữ-liệu-lớn
Sao 5
- Mã số
- Vấn đề
- Yêu cầu kéo
Đây là kho lưu trữ chứa các mẫu mã của tôi giúp tôi hiểu các khái niệm về lưu trữ phân tán và xử lý Dữ liệu lớn bằng Apache spark và Python
big-data apache-spark pyspark big-data-analytics
- Cập nhật15/12/2019
- con trăn
JackSnowWolf / EECS_E6893_Big_Data_Analytics_Homework
Sao 5
- Mã số
- Vấn đề
- Yêu cầu kéo
Bài tập về nhà cho Phân tích dữ liệu lớn @ đại học columbia
bigquery big-data spark bài tập về nhà phân tích dữ liệu lớn gcp
- Cập nhật 25/11/2019
- con trăn
JavadDogani / Phân tích khối lượng công việc trên đám mây đa biến
Sao 4
- Mã số
- Vấn đề
- Yêu cầu kéo
Kho lưu trữ này phân tích dữ liệu khối lượng công việc Đa biến của các máy Google Cluster
điện toán đám mây phân tích dữ liệu lớn-kiểm tra tĩnh-kiểm tra chuỗi thời gian đa biến-phân tích đa biến-phân tích nhân quả
- Cập nhật ngày 6 tháng 12 năm 2021
- con trăn
claudianpl / tim-bệnh-phân-tích-dữ-liệu
Sao 3
- Mã số
- Vấn đề
- Yêu cầu kéo
Repositório criado para versionar o conteúdo das atividades praticicas of discciplina de Projeto Interdisciplinar for Systemes de Informação III [PISI III], cung cấp tài liệu tham khảo Bacharelado cho Hệ thống thông tin UFRPE
khoa học dữ liệu máy học phân tích dữ liệu lớn streamlit
- Cập nhậtNgày 11 tháng 5 năm 2022
- con trăn
sachinnpraburaj / Phân tích-và-Đề xuất-trên-YELP
Sao 3
- Mã số
- Vấn đề
- Yêu cầu kéo
Dự án cung cấp thông tin chi tiết để chủ sở hữu doanh nghiệp cải thiện hoạt động kinh doanh của họ và đề xuất cho người dùng để cải thiện trải nghiệm của họ với ứng dụng
phân tích tình cảm yelp-dataset dựa trên nội dung-đề xuất-phân tích dữ liệu lớn-mô hình hóa chủ đề-đánh giá giả mạo
- Cập nhật17 tháng 5 năm 2020
- con trăn
JosepSampe / lithops
Sao 3
- Mã số
- Vấn đề
- Yêu cầu kéo
Một khung nhiều đám mây để phân tích dữ liệu lớn và các công việc song song đáng xấu hổ, cung cấp một API chung để xây dựng các ứng dụng song song trên đám mây☁️🚀
python kubernetes dữ liệu lớn đa xử lý không có máy chủ song song phân tán chức năng không có máy chủ điện toán đám mây xử lý dữ liệu lưu trữ đối tượng phân tích dữ liệu lớn đa đám mây điện toán không có máy chủ
- Cập nhật18/12/2022
- con trăn
panagiwtap / lâm sàng-phân tích dữ liệu lớn
Sao 2
- Mã số
- Vấn đề
- Yêu cầu kéo
📊Phân tích dữ liệu lớn về dữ liệu lâm sàng, được viết bằng Python
python tiền xử lý dữ liệu lâm sàng phân tích dữ liệu lớn
- Cập nhậtNgày 15 tháng 3 năm 2022
- con trăn
neha-mane / TwitterEDU
Sao 2
- Mã số
- Vấn đề
- Yêu cầu kéo
Giáo dục được dự đoán của một khu vực bằng cách sử dụng các tweet của khu vực đó
twitter-api bigdata phân tích dữ liệu lớn
- Cập nhật ngày 4 tháng 8 năm 2018
- con trăn
haustcsa / SocialSituSecu
Sao 2
- Mã số
- Vấn đề
- Yêu cầu kéo
SocialSituSecu là một dự án khám phá an ninh mạng xã hội, máy tính và trí thông minh dựa trên siêu dữ liệu tình huống xã hội, được tài trợ bởi Quỹ Khoa học Tự nhiên Quốc gia Trung Quốc. 61972133, và Dự án dẫn đầu tài năng đổi mới khoa học và công nghệ cho hàng nghìn người Kế hoạch ở tỉnh Hà Nam Cấp số. 204200…
bảo mật mạng xã hội phân tích mạng xã hội thuật toán trí tuệ nhân tạo mạng xã hội phân tích dữ liệu lớn nhận thức tình huống