Phân tích dữ liệu lớn với python pdf github

Trang web này chứa toàn văn Sổ tay Khoa học Dữ liệu Python của Jake VanderPlas;

Văn bản được phát hành theo giấy phép CC-BY-NC-ND và mã được phát hành theo giấy phép MIT

Nếu bạn thấy nội dung này hữu ích, vui lòng cân nhắc ủng hộ tác phẩm bằng cách mua sách

Mục lục¶

Lời nói đầu¶

1. IPython. Ngoài Python bình thường¶

  • Trợ giúp và Tài liệu trong IPython
  • Phím tắt trong IPython Shell
  • Lệnh ma thuật IPython
  • Lịch sử đầu vào và đầu ra
  • Lệnh IPython và Shell
  • Lỗi và gỡ lỗi
  • Hồ sơ và mã thời gian
  • Thêm tài nguyên IPython

2. Giới thiệu về NumPy¶

  • Hiểu các kiểu dữ liệu trong Python
  • Khái niệm cơ bản về mảng NumPy
  • Tính toán trên mảng NumPy. Chức năng phổ quát
  • tổng hợp. Tối thiểu, Tối đa và Mọi thứ ở giữa
  • Tính toán trên mảng. Phát thanh truyền hình
  • So sánh, Mặt nạ và Logic Boolean
  • Lập chỉ mục ưa thích
  • Sắp xếp mảng
  • Dữ liệu có cấu trúc. Mảng có cấu trúc của NumPy

3. Thao tác dữ liệu với Pandas¶

  • Giới thiệu đối tượng Pandas
  • Lập chỉ mục và lựa chọn dữ liệu
  • Hoạt động trên dữ liệu trong Pandas
  • Xử lý dữ liệu bị thiếu
  • Lập chỉ mục phân cấp
  • Kết hợp bộ dữ liệu. Concat và Append
  • Kết hợp bộ dữ liệu. Hợp nhất và tham gia
  • Tổng hợp và nhóm
  • Bảng tổng hợp
  • Hoạt động chuỗi Vectorized
  • Làm việc với chuỗi thời gian
  • Gấu trúc hiệu suất cao. eval[] và truy vấn[]
  • Tài nguyên khác

4. Trực quan hóa với Matplotlib¶

  • Sơ đồ đường đơn giản
  • Biểu đồ phân tán đơn giản
  • Hiển thị lỗi
  • Mật độ và đường viền
  • Biểu đồ, Binnings và Mật độ
  • Tùy chỉnh cốt truyện huyền thoại
  • Tùy chỉnh thanh màu
  • Nhiều ô con
  • Văn bản và chú thích
  • Tùy chỉnh đánh dấu
  • Tùy chỉnh Matplotlib. Cấu hình và biểu định kiểu
  • Âm mưu ba chiều trong Matplotlib
  • Dữ liệu địa lý với Bản đồ cơ sở
  • Trực quan hóa với Seaborn
  • Tài nguyên khác

5. Học máy¶

  • Học máy là gì?
  • Giới thiệu Scikit-Tìm hiểu
  • Siêu tham số và xác thực mô hình
  • Kỹ thuật tính năng
  • chuyên sâu. Phân loại Naive Bayes
  • chuyên sâu. hồi quy tuyến tính
  • chuyên sâu. Hỗ trợ máy Vector
  • chuyên sâu. Cây quyết định và rừng ngẫu nhiên
  • chuyên sâu. Phân tích thành phần chính
  • chuyên sâu. học đa dạng
  • chuyên sâu. phân cụm k-Means
  • chuyên sâu. Mô hình hỗn hợp Gaussian
  • chuyên sâu. Ước tính mật độ hạt nhân
  • Đăng kí. Đường ống nhận diện khuôn mặt
  • Tài nguyên học máy khác

ruột thừa. Mã hình¶

dữ liệu python-khoa học máy học thống kê học sâu jupyter pandas-dataframe khám phá-phân tích dữ liệu jupyter-notebook eda pandas khám phá dữ liệu-phân tích html-báo cáo dữ liệu-khám phá hacktoberfest pandas-lập hồ sơ dữ liệu-chất lượng dữ liệu-lập hồ sơ phân tích dữ liệu lớn

  • Cập nhật16/12/2022
  • con trăn

lithops-đám mây / lithops

Sao 246

  • Mã số
  • Vấn đề
  • Yêu cầu kéo
  • thảo luận

Một khung nhiều đám mây để phân tích dữ liệu lớn và các công việc song song đáng xấu hổ, cung cấp một API chung để xây dựng các ứng dụng song song trên đám mây☁️🚀

python kubernetes dữ liệu lớn đa xử lý không có máy chủ song song phân tán chức năng không có máy chủ điện toán đám mây xử lý dữ liệu lưu trữ đối tượng phân tích dữ liệu lớn đa đám mây điện toán không có máy chủ

  • Cập nhật18/12/2022
  • con trăn

Ashish7129 / Graph_Sampling

Sao 132

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Lấy mẫu đồ thị là gói python chứa nhiều cách tiếp cận khác nhau để lấy mẫu biểu đồ gốc theo các kích thước mẫu khác nhau

khai thác dữ liệu mẫu python biểu đồ mạng dữ liệu lớn mạng-khoa học lấy mẫu networkx phân tích mạng phân tích mạng xã hội tìm kiếm theo chiều rộng cảm ứng bước đi ngẫu nhiên biểu đồ con phân tích dữ liệu lớn

  • Cập nhật ngày 4 tháng 12 năm 2020
  • con trăn

luồng không khí-plugin / pandora-plugin

Sao 25

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Plugin cung cấp chế độ xem, toán tử, cảm biến và nhiều tính năng khác được phát triển tại Pandora Media

khoa học dữ liệu luồng không khí dữ liệu-plugin apache-airflow phân tích dữ liệu lớn

  • Cập nhật ngày 3 tháng 5 năm 2018
  • con trăn

arakat-cộng đồng / arakat

Sao 23

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

AREKAT - Nền tảng phát triển ứng dụng thông minh kinh doanh và phân tích dữ liệu lớn

docker hệ thống phân tán docker-swarm kinh doanh thông minh đường ống dữ liệu phân tích dữ liệu lớn dự đoán bảo trì ứng dụng gốc trên đám mây

  • Cập nhật ngày 4 tháng 8 năm 2021
  • con trăn

Wittline / pyspark-on-aws-emr

Nhà tài trợ

Sao 17

  • Mã số
  • Vấn đề
  • Yêu cầu kéo
  • thảo luận

Mục tiêu của dự án này là cung cấp mẫu AWS EMR sử dụng Nhóm Spot và Phiên bản theo yêu cầu mà bạn có thể sử dụng nhanh chóng. Chỉ cần tập trung vào viết mã pyspark

python aws big-data spark aws-emr pyspark dataengineering phân tích dữ liệu lớn ec2-spot emr-cluster wordcloud-generator ec2-spot-instance

  • Cập nhật13/06/2022
  • con trăn

ThinkBigEg / influxDB-grafana-gke

Sao 10

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Trong hướng dẫn này, chúng tôi giải thích cách nhận phân tích năng lượng được sản xuất và tiêu thụ theo thời gian thực từ hai trình mô phỏng trạm năng lượng mặt trời bằng cách sử dụng influxDB cùng với grafana được lưu trữ trên công cụ kubernetes của google

python kubernetes iot cảm biến grafana dữ liệu lớn influxdb google-cloud-platform grafana-influxdb năng lượng mặt trời gke-cluster phân tích dữ liệu lớn google-kubernetes-engine

  • Cập nhật28/10/2018
  • con trăn

Dammonoit / Sinh-viên-phân-tích-sử-dụng-dữ-liệu-lớn

Sao 9

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Dự án này phân tích và tương quan hiệu suất của học sinh với các thuộc tính khác nhau. Sau đó, cuối cùng, nó xác định thuật toán phù hợp nhất trong số chúng

phân tích thuật toán khai thác dữ liệu phân tích dữ liệu lớn phân tích hiệu suất sinh viên

  • Cập nhật 1 tháng 11, 2017
  • con trăn

epidataio / epidata-cộng đồng

Sao 7

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Nền tảng khoa học dữ liệu EpiData IoT - Phiên bản cộng đồng

khoa học dữ liệu học máy học sâu trí tuệ nhân tạo nền tảng iot công nghiệp tự động hóa phân tích dữ liệu lớn phân tích iot nền tảng cảm biến đo lường

  • Cập nhật 20/11/2022
  • con trăn

AWS-Dữ liệu lớn-Dự án / Iot-và-Ứng dụng-dữ liệu lớn-sử dụng-aws-và-apache-kafka

Nhà tài trợ

Sao 13

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Iot, Phân tích dữ liệu lớn sử dụng Apache-kafka, spark và các dịch vụ aws khác

iot aws sql apache-spark aws-kinesis apache-kafka phân tích dữ liệu lớn

  • Cập nhậtTháng 9 11, 2020
  • con trăn

PotatoSpudowski / Hướng dẫn-tập-trung-đến-lưu-phân-biệt-và-xử-lý-của-dữ-liệu-lớn

Sao 5

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Đây là kho lưu trữ chứa các mẫu mã của tôi giúp tôi hiểu các khái niệm về lưu trữ phân tán và xử lý Dữ liệu lớn bằng Apache spark và Python

big-data apache-spark pyspark big-data-analytics

  • Cập nhật15/12/2019
  • con trăn

JackSnowWolf / EECS_E6893_Big_Data_Analytics_Homework

Sao 5

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Bài tập về nhà cho Phân tích dữ liệu lớn @ đại học columbia

bigquery big-data spark bài tập về nhà phân tích dữ liệu lớn gcp

  • Cập nhật 25/11/2019
  • con trăn

JavadDogani / Phân tích khối lượng công việc trên đám mây đa biến

Sao 4

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Kho lưu trữ này phân tích dữ liệu khối lượng công việc Đa biến của các máy Google Cluster

điện toán đám mây phân tích dữ liệu lớn-kiểm tra tĩnh-kiểm tra chuỗi thời gian đa biến-phân tích đa biến-phân tích nhân quả

  • Cập nhật ngày 6 tháng 12 năm 2021
  • con trăn

claudianpl / tim-bệnh-phân-tích-dữ-liệu

Sao 3

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Repositório criado para versionar o conteúdo das atividades praticicas of discciplina de Projeto Interdisciplinar for Systemes de Informação III [PISI III], cung cấp tài liệu tham khảo Bacharelado cho Hệ thống thông tin UFRPE

khoa học dữ liệu máy học phân tích dữ liệu lớn streamlit

  • Cập nhậtNgày 11 tháng 5 năm 2022
  • con trăn

sachinnpraburaj / Phân tích-và-Đề xuất-trên-YELP

Sao 3

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Dự án cung cấp thông tin chi tiết để chủ sở hữu doanh nghiệp cải thiện hoạt động kinh doanh của họ và đề xuất cho người dùng để cải thiện trải nghiệm của họ với ứng dụng

phân tích tình cảm yelp-dataset dựa trên nội dung-đề xuất-phân tích dữ liệu lớn-mô hình hóa chủ đề-đánh giá giả mạo

  • Cập nhật17 tháng 5 năm 2020
  • con trăn

JosepSampe / lithops

Sao 3

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Một khung nhiều đám mây để phân tích dữ liệu lớn và các công việc song song đáng xấu hổ, cung cấp một API chung để xây dựng các ứng dụng song song trên đám mây☁️🚀

python kubernetes dữ liệu lớn đa xử lý không có máy chủ song song phân tán chức năng không có máy chủ điện toán đám mây xử lý dữ liệu lưu trữ đối tượng phân tích dữ liệu lớn đa đám mây điện toán không có máy chủ

  • Cập nhật18/12/2022
  • con trăn

panagiwtap / lâm sàng-phân tích dữ liệu lớn

Sao 2

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

📊Phân tích dữ liệu lớn về dữ liệu lâm sàng, được viết bằng Python

python tiền xử lý dữ liệu lâm sàng phân tích dữ liệu lớn

  • Cập nhậtNgày 15 tháng 3 năm 2022
  • con trăn

neha-mane / TwitterEDU

Sao 2

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

Giáo dục được dự đoán của một khu vực bằng cách sử dụng các tweet của khu vực đó

twitter-api bigdata phân tích dữ liệu lớn

  • Cập nhật ngày 4 tháng 8 năm 2018
  • con trăn

haustcsa / SocialSituSecu

Sao 2

  • Mã số
  • Vấn đề
  • Yêu cầu kéo

SocialSituSecu là một dự án khám phá an ninh mạng xã hội, máy tính và trí thông minh dựa trên siêu dữ liệu tình huống xã hội, được tài trợ bởi Quỹ Khoa học Tự nhiên Quốc gia Trung Quốc. 61972133, và Dự án dẫn đầu tài năng đổi mới khoa học và công nghệ cho hàng nghìn người Kế hoạch ở tỉnh Hà Nam Cấp số. 204200…

bảo mật mạng xã hội phân tích mạng xã hội thuật toán trí tuệ nhân tạo mạng xã hội phân tích dữ liệu lớn nhận thức tình huống

Chủ Đề