Biến thành DataFrame Python

Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách tạo hoặc thêm cột mới vào khung dữ liệu trong python pandas. tạo một cột hoặc biến mới cho khung dữ liệu đã có sẵn trong gấu trúc python được giải thích bằng ví dụ. thêm một cột hoặc biến mới vào khung dữ liệu đã có sẵn trong gấu trúc python với một ví dụ. Tạo cột mới có bốn phương pháp khác nhau và thêm một biến có thể được thực hiện bằng hai phương pháp khác nhau

  • Tạo một cột mới trong pandas python bằng hàm gán
  • Tạo một biến mới trong pandas python bằng từ điển
  • Tạo một cột mới ở vị trí cụ thể bằng hàm insert[]
  • Tạo một biến mới bằng cách sử dụng danh sách được chuyển đổi thành cột
  • Thêm cột mới dựa trên cột hiện có bằng cách sử dụng hàm apply[]

 

Tạo khung dữ liệu

import pandas as pd
import numpy as np

#Create a DataFrame
d = {
    'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
   'Rahul','David'],
   'Score1':[62,47,55,74,31,77,85,63,42],
   'Score2':[89,87,67,55,47,72,76,79,44]}

df = pd.DataFrame[d]
print df

vì vậy khung dữ liệu kết quả sẽ là

Nếu chúng tôi muốn truy cập một cột nhất định trong Khung dữ liệu của mình, chẳng hạn như cột Điểm, chúng tôi chỉ cần sử dụng hàm loc và chỉ định tên của cột để truy xuất nó

Report_Card.loc[:,"Grades"]

Đối số đầu tiên [. ] biểu thị những hàng chúng tôi muốn lập chỉ mục và đối số thứ hai [Grades] cho phép chúng tôi lập chỉ mục cột mà chúng tôi muốn. Dấu chấm phẩy trả về tất cả các hàng từ cột chúng tôi đã chỉ định

Kết quả tương tự cũng có thể thu được bằng hàm iloc. đối số iloc yêu cầu chỉ số giá trị số nguyên thay vì tên giá trị chuỗi. Để tạo lại ví dụ về cột Điểm của chúng tôi, chúng tôi có thể sử dụng đoạn mã sau

Report_Card.iloc[:,3]

Vì cột Tên là cột thứ 0 nên cột Điểm sẽ có giá trị chỉ số bằng số là 3

Chúng ta cũng có thể truy cập nhiều cột cùng một lúc bằng hàm loc bằng cách cung cấp một mảng đối số, như sau

Report_Card.loc[:,["Lectures","Grades"]]

Để có được kết quả tương tự với hàm iloc, chúng tôi sẽ cung cấp một mảng số nguyên cho đối số thứ hai.  

Report_Card.iloc[:,[2,3]]

Cả hai ví dụ hàm iloc và loc sẽ tạo ra Khung dữ liệu sau

Điều quan trọng cần lưu ý là thứ tự của các tên cột mà chúng tôi đã sử dụng khi chỉ định mảng ảnh hưởng đến thứ tự của các cột trong DataFrame kết quả, như có thể thấy trong hình trên

Dọn dẹp dữ liệu

Khi làm sạch dữ liệu, đôi khi chúng ta sẽ cần xử lý NaN [Không phải giá trị Số]. Để tìm kiếm các cột có giá trị bị thiếu, chúng ta có thể làm như sau.  

________số 8

Khi chúng tôi sử dụng Report_Card. isna[]. any[] chúng ta nhận được một Đối tượng Chuỗi các giá trị boolean, trong đó các giá trị sẽ là True nếu cột có bất kỳ dữ liệu bị thiếu nào trong bất kỳ hàng nào của chúng. Đối tượng sê-ri này sau đó được sử dụng để lấy các cột trong Khung dữ liệu của chúng tôi với các giá trị bị thiếu và biến nó thành một danh sách bằng cách sử dụng hàm tolist[]. Cuối cùng, chúng tôi sử dụng các chỉ số này để lấy các cột có giá trị bị thiếu

Hình dung

Vì bây giờ chúng ta có cột có tên là Điểm, chúng ta có thể thử hình dung nó. Thông thường, chúng tôi sẽ sử dụng một gói Python khác để vẽ dữ liệu, nhưng may mắn thay, gấu trúc cung cấp một số hàm trực quan tích hợp. Ví dụ: chúng ta có thể lấy biểu đồ của cột Điểm bằng cách sử dụng dòng mã sau

/* Khối mã */

Grades.hist[]

/* Khối mã */

Điều này sẽ tạo ra biểu đồ sau cho chúng tôi, nơi chúng tôi có thể kiểm tra sự phân phối của các điểm. Vì dữ liệu của chúng tôi không tự nhiên và rất hạn chế về số lượng, phân phối của chúng tôi cũng khá phi thực tế. Tuy nhiên, đây là biểu đồ

Bước tiếp theo

Bây giờ bạn đã biết cách truy cập một cột trong DataFrame bằng thư viện Pandas của Python, hãy chuyển sang những việc khác mà bạn có thể làm với Pandas

  • Cách truy cập một hàng trong DataFrame
  • Cách cắt một DataFrame trong Pandas
  • Cách nhóm dữ liệu trong Python bằng Pandas
  • Xem tất cả các bài viết của chúng tôi cho thư viện Pandas
  • Đọc các hướng dẫn 'Cách thực hiện' khác cho Gói Python

Python cho khoa học dữ liệu

Được đóng gói sẵn với các gói quan trọng nhất mà Nhà khoa học dữ liệu cần, ActivePython được biên dịch trước để bạn và nhóm của bạn không phải lãng phí thời gian để định cấu hình bản phân phối nguồn mở. Bạn có thể tập trung vào những gì quan trọng – dành nhiều thời gian hơn để xây dựng các thuật toán và mô hình dự đoán đối với các nguồn dữ liệu lớn của bạn và ít thời gian hơn cho cấu hình hệ thống

Một số gói Python phổ biến cho Khoa học dữ liệu/Dữ liệu lớn/Học máyBạn được biên dịch sẵn – với ActivePython

  • gấu trúc [phân tích dữ liệu]
  • NumPy [mảng đa chiều]
  • SciPy [thuật toán để sử dụng với numpy]
  • HDF5 [lưu trữ và thao tác dữ liệu]
  • Matplotlib [trực quan hóa dữ liệu]
  • Jupyter [hợp tác nghiên cứu]
  • PyTables [quản lý bộ dữ liệu HDF5]
  • HDFS [Trình bao bọc C/C++ cho Hadoop]
  • pymongo [Trình điều khiển MongoDB]
  • SQLAlchemy [Bộ công cụ Python SQL]

Có nguồn gốc sâu xa về nguồn mở và là thành viên sáng lập của Quỹ Python, ActiveState đóng góp tích cực cho cộng đồng Python. Chúng tôi cung cấp sự tiện lợi, bảo mật và hỗ trợ mà doanh nghiệp của bạn cần trong khi vẫn tương thích với bản phân phối mã nguồn mở của Python

Tải xuống ActivePython Community Edition để bắt đầu hoặc liên hệ với chúng tôi để tìm hiểu thêm về cách sử dụng ActivePython trong tổ chức của bạn

Bạn cũng có thể bắt đầu bằng cách dùng thử thời gian chạy ML nhỏ của chúng tôi dành cho Linux hoặc Windows bao gồm hầu hết các gói phổ biến dành cho Máy học và Khoa học dữ liệu, được biên dịch sẵn và sẵn sàng để sử dụng trong các dự án từ công cụ đề xuất đến bảng điều khiển

Làm thế nào để sử dụng các biến trong gấu trúc?

Để tham chiếu một biến trong truy vấn, bạn cần sử dụng @ . Thay vì giá trị bộ lọc, chúng tôi đang đề cập đến cột mà chúng tôi muốn sử dụng để đặt phụ hoặc lọc. {0} nhận một giá trị của biến myvar1. Trong trường hợp bạn muốn chuyển nhiều cột dưới dạng biến trong truy vấn.

Làm cách nào để chuyển đổi một biến thành khung dữ liệu trong R?

Chúng ta có thể tạo một khung dữ liệu trong R bằng cách chuyển biến a,b,c,d vào dữ liệu. hàm frame[] . Chúng ta có thể R tạo khung dữ liệu và đặt tên cho các cột bằng name[] và chỉ cần chỉ định tên của các biến.

Chủ Đề