Python để phân tích dữ liệu GitHub

Trang web này chứa toàn văn Sổ tay Khoa học Dữ liệu Python của Jake VanderPlas;

Văn bản được phát hành theo giấy phép CC-BY-NC-ND và mã được phát hành theo giấy phép MIT

Nếu bạn thấy nội dung này hữu ích, vui lòng cân nhắc ủng hộ tác phẩm bằng cách mua sách

Mục lục¶

Lời nói đầu¶

1. IPython. Ngoài Python bình thường¶

  • Trợ giúp và Tài liệu trong IPython
  • Phím tắt trong IPython Shell
  • Lệnh ma thuật IPython
  • Lịch sử đầu vào và đầu ra
  • Lệnh IPython và Shell
  • Lỗi và gỡ lỗi
  • Hồ sơ và mã thời gian
  • Thêm tài nguyên IPython

2. Giới thiệu về NumPy¶

  • Hiểu các kiểu dữ liệu trong Python
  • Khái niệm cơ bản về mảng NumPy
  • Tính toán trên mảng NumPy. Chức năng phổ quát
  • tổng hợp. Tối thiểu, Tối đa và Mọi thứ ở giữa
  • Tính toán trên mảng. Phát thanh truyền hình
  • So sánh, Mặt nạ và Logic Boolean
  • Lập chỉ mục ưa thích
  • Sắp xếp mảng
  • Dữ liệu có cấu trúc. Mảng có cấu trúc của NumPy

3. Thao tác dữ liệu với Pandas¶

  • Giới thiệu đối tượng Pandas
  • Lập chỉ mục và lựa chọn dữ liệu
  • Hoạt động trên dữ liệu trong Pandas
  • Xử lý dữ liệu bị thiếu
  • Lập chỉ mục phân cấp
  • Kết hợp bộ dữ liệu. Concat và Append
  • Kết hợp bộ dữ liệu. Hợp nhất và tham gia
  • Tổng hợp và nhóm
  • Bảng tổng hợp
  • Hoạt động chuỗi Vectorized
  • Làm việc với chuỗi thời gian
  • Gấu trúc hiệu suất cao. eval[] và truy vấn[]
  • Tài nguyên khác

4. Trực quan hóa với Matplotlib¶

  • Sơ đồ đường đơn giản
  • Biểu đồ phân tán đơn giản
  • Hiển thị lỗi
  • Mật độ và đường viền
  • Biểu đồ, Binnings và Mật độ
  • Tùy chỉnh cốt truyện huyền thoại
  • Tùy chỉnh thanh màu
  • Nhiều ô con
  • Văn bản và chú thích
  • Tùy chỉnh đánh dấu
  • Tùy chỉnh Matplotlib. Cấu hình và biểu định kiểu
  • Âm mưu ba chiều trong Matplotlib
  • Dữ liệu địa lý với Bản đồ cơ sở
  • Trực quan hóa với Seaborn
  • Tài nguyên khác

5. Học máy¶

  • Học máy là gì?
  • Giới thiệu Scikit-Tìm hiểu
  • Siêu tham số và xác thực mô hình
  • Kỹ thuật tính năng
  • chuyên sâu. Phân loại Naive Bayes
  • chuyên sâu. hồi quy tuyến tính
  • chuyên sâu. Hỗ trợ máy Vector
  • chuyên sâu. Cây quyết định và rừng ngẫu nhiên
  • chuyên sâu. Phân tích thành phần chính
  • chuyên sâu. học đa dạng
  • chuyên sâu. phân cụm k-Means
  • chuyên sâu. Mô hình hỗn hợp Gaussian
  • chuyên sâu. Ước tính mật độ hạt nhân
  • Đăng kí. Đường ống nhận diện khuôn mặt
  • Tài nguyên máy học khác

ruột thừa. Mã hình¶

Dữ liệu mở NYC cung cấp một kho tàng thông tin - tất cả đều có sẵn công khai chỉ với một lần bấm nút. Mặc dù có quyền truy cập vào dữ liệu là điều tuyệt vời, nhưng việc phân tích nó thường là một quy trình khó khăn đối với những người mới bắt đầu, có khả năng tạo ra các rào cản trong hành trình dữ liệu mở của một người. Ngoài ra, việc thực hiện phân tích dữ liệu theo cách có thể lặp lại thường bị hạn chế hoặc thậm chí bị loại bỏ hoàn toàn

Phân tích dữ liệu bằng Python. Hướng dẫn dành cho người mới bắt đầu có Dữ liệu mở của NYC là một loạt bài gồm bốn phần như được liệt kê trong các phần bên dưới. Bộ sưu tập sổ ghi chép này đóng vai trò là tài liệu tham khảo/hướng dẫn sử dụng về cách áp dụng Python vào các dự án Phân tích dữ liệu trong thế giới thực. Kho lưu trữ có các sổ ghi chép sẽ sử dụng ngôn ngữ lập trình Python và bộ dữ liệu từ Dữ liệu mở NYC. Loạt bài này minh họa cách sử dụng phân tích dữ liệu để khám phá thông tin hữu ích và hỗ trợ ra quyết định

Phần bao gồm

Phần 1. Đọc và ghi tệp bằng Python
Phần 1 trình bày nhiều cách khác nhau để đọc [tải] và ghi [lưu] dữ liệu bằng ngôn ngữ lập trình Python. Các bộ dữ liệu chứa các định dạng tệp phổ biến như giá trị được phân tách bằng dấu phẩy [csv], Ký hiệu đối tượng JavaScript [json], tệp hình dạng [i. e. định dạng cho vị trí hình học và thông tin thuộc tính] và tệp zip.

Phần 2. Kiểm tra, làm sạch và sắp xếp dữ liệu trong Python
Phần 2 trình bày nhiều cách khác nhau để kiểm tra, làm sạch, sắp xếp lại và phát hiện bất kỳ giá trị ngoại lệ nào trong dữ liệu của bạn.

Phần 3. Vẽ biểu đồ và trực quan hóa dữ liệu trong Python
Phần 3 trình bày các ví dụ khác nhau về biểu đồ và trực quan hóa dữ liệu.

Phần 4. Dữ liệu và bản đồ không gian địa lý
Phần 4 trình bày các quy trình công việc khác nhau khi làm việc với dữ liệu và bản đồ không gian địa lý.

Bạn có thể chạy ví dụ tương tác trên MyBinder thông qua trình duyệt của mình - không cần cài đặt. nhấp vào đây

. Tải MyBinder hơi chậm và mất ~5 phút, nhưng cuối cùng nó sẽ tải.

2. Sổ ghi chép

Bạn có thể xem các sổ ghi chép này thông qua trình duyệt của mình bằng cách nhấp vào Xem bên dưới cột Trang web tĩnh

Tên tệp Mô tảTrang web tĩnh1-đọc-viết-tệp. ipynbĐọc và ghi tệp. View2-kiểm tra dữ liệu-làm sạch-sắp xếp. ipynbKiểm tra, làm sạch và sắp xếp dữ liệu. View3-âm mưu-trực quan hóa. ipynbPlotting và trực quan hóa dữ liệu. View4-bản đồ dữ liệu không gian địa lý. ipynb Dữ liệu và bản đồ không gian địa lý. Xem3. Dữ liệuBộ dữ liệuMô tảDấu chân tòa nhàShapefile phác thảo dấu chân của các tòa nhà ở Thành phố New York. MapPLUTOMapPLUTO hợp nhất dữ liệu lô thuế PLUTO với các tính năng lô thuế từ Bản đồ thuế kỹ thuật số [DTM] của Bộ Tài chính và có sẵn dưới dạng đường bờ biển bị cắt và bao gồm nước. Nó chứa dữ liệu địa lý và sử dụng đất rộng rãi ở cấp lô thuế ở định dạng ESRI shapefile và File Geodatabase. Trường học Đây là tệp hình dạng ESRI của các vị trí điểm trường học dựa trên địa chỉ chính thức. Nó bao gồm một số thông tin cơ bản và thích hợp bổ sung cần thiết để liên kết với các nguồn dữ liệu khác. Nó cũng bao gồm một số thông tin cơ bản của trường như Tên, Địa chỉ, Hiệu trưởng và thông tin liên hệ của Hiệu trưởng. Đường Phố Trung tâm Phố NYC [CSCL] là biểu diễn lòng đường của các đường phố ở Thành phố New York có chứa phạm vi địa chỉ và các thông tin khác như hướng giao thông, loại đường, loại đoạn đường. Khu vực lập bảng khu phố [NTA] Ranh giới của các khu vực lập bảng khu phố do Sở Quy hoạch Thành phố NYC tạo ra bằng cách sử dụng toàn bộ các vùng điều tra dân số từ Cuộc điều tra dân số năm 2010 làm khối xây dựng. Các tập hợp vùng điều tra dân số này là tập hợp con của 55 Khu vực vi dữ liệu sử dụng công cộng [PUMA] của Thành phố New York. Dữ liệu GIS các quận của NYC. Ranh giới của các quận [không bao gồm vùng nước]. 4. Ứng dụng mã nguồn mở được sử dụng trong dự án
  • Trăn Anaconda. Bản phân phối ngôn ngữ lập trình Python và R dành cho điện toán khoa học [khoa học dữ liệu, ứng dụng học máy, xử lý dữ liệu quy mô lớn, phân tích dự đoán, v.v. ], nhằm mục đích đơn giản hóa việc quản lý và triển khai gói
  • Dự án Jupyter. Dự án Jupyter là một dự án nguồn mở, phi lợi nhuận, ra đời từ Dự án IPython vào năm 2014 khi nó phát triển để hỗ trợ khoa học dữ liệu tương tác và tính toán khoa học trên tất cả các ngôn ngữ lập trình
    • Máy tính xách tay Jupyter. Jupyter Notebook là một ứng dụng web mã nguồn mở cho phép bạn tạo và chia sẻ tài liệu có chứa mã trực tiếp, phương trình, trực quan hóa và văn bản tường thuật
    • nbviewer. Ứng dụng web cho phép bạn nhập URL của tệp Jupyter Notebook, hiển thị sổ ghi chép đó dưới dạng trang web HTML tĩnh và cung cấp cho bạn liên kết ổn định tới trang đó mà bạn có thể chia sẻ với người khác
    • Chất kết dính. Dự án Binder là một cộng đồng mở cho phép tạo ra các môi trường có thể chia sẻ, tương tác và tái sản xuất
5. Tài nguyên bổ sung
  • Dữ liệu mở NYC. Dữ liệu Mở là dữ liệu công khai miễn phí được xuất bản bởi các cơ quan của Thành phố New York và các đối tác khác
  • Hướng dẫn Sodapy Sử dụng Dữ liệu Mở NYC. Hướng dẫn này trình bày cách sử dụng sodapy và cung cấp các ví dụ về truy vấn dữ liệu bằng Ngôn ngữ truy vấn Socrata hoặc SoQL
  • Phân tích Khiếu nại Ngập lụt Đường phố 311 của NYC từ năm 2010 đến năm 2020. Phân tích các khiếu nại về ngập lụt đường phố với bộ dữ liệu 311 của NYC Open Data. Cung cấp một ví dụ về một dự án trong thế giới thực sử dụng Python để phân tích dữ liệu
nói xin chào

Tôi có thể đạt được tại

Twitter. markbauerwater
LinkedIn. markebauer
GitHub. người chơi

từ khóa. Phân tích dữ liệu, Python, gấu trúc, numpy, matplotlib, seaborn, GeoPandas, Thành phố New York, NYC, Dữ liệu mở NYC, Dữ liệu mở, Nguồn mở, Khoa học mở, Phân tích dữ liệu khám phá, EDA, Khoa học dữ liệu, Sắp xếp dữ liệu, Kiểm tra dữ liệu, Dữ liệu

GitHub có tốt cho các nhà phân tích dữ liệu không?

Nói chung, GitHub là một phần mềm rất hữu ích dành cho Nhà phân tích dữ liệu trong mọi tổ chức . Nó cho phép người dùng tạo kho lưu trữ và thư viện, đảm bảo rằng chúng tôi không cần tạo truy vấn từ đầu bất cứ khi nào chúng tôi muốn thực hiện lại phân tích hoặc tạo báo cáo tương tự.

Python có phù hợp để phân tích dữ liệu không?

Python và R đều là ngôn ngữ nguồn mở, miễn phí có thể chạy trên Windows, macOS và Linux. Cả hai đều có thể xử lý mọi tác vụ phân tích dữ liệu và cả hai đều được coi là ngôn ngữ tương đối dễ học, đặc biệt là cho người mới bắt đầu.

Python nào là tốt nhất để phân tích dữ liệu?

Pandas [Phân tích dữ liệu Python] là điều bắt buộc trong vòng đời của khoa học dữ liệu. Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với NumPy trong matplotlib.

Chủ Đề