Hướng dẫn python topics for data analytics - chủ đề python để phân tích dữ liệu

Về khóa học này

Thời hạn linh hoạt

Show

Đặt lại thời hạn theo lịch trình của bạn.

Giấy chứng nhận có thể chia sẻ

Kiếm chứng chỉ sau khi hoàn thành

100% trực tuyến

Bắt đầu ngay lập tức và học theo lịch trình của riêng bạn.

Cấp độ cho người bắt đầu

Bạn nên có kiến ​​thức làm việc về Notebook Python và Jupyter. & NBSP;

Khoảng. 14 giờ để hoàn thành

Những gì bạn sẽ học

  • Phát triển mã Python để làm sạch và chuẩn bị dữ liệu để phân tích - bao gồm xử lý các giá trị bị thiếu, định dạng, bình thường hóa và dữ liệu

  • Thực hiện phân tích dữ liệu khám phá và áp dụng các kỹ thuật phân tích cho các bộ dữ liệu từ thực bằng các thư viện như gấu trúc, numpy và scipy

  • Thao tác dữ liệu bằng cách sử dụng DataFrames, tóm tắt dữ liệu, hiểu phân phối dữ liệu, thực hiện tương quan và tạo đường ống dữ liệu

  • Xây dựng và đánh giá các mô hình hồi quy bằng cách sử dụng thư viện Scikit-Learn học máy và sử dụng chúng để dự đoán và ra quyết định

Kỹ năng bạn sẽ đạt được

  • Mô hình dự đoán
  • Lập trình Python
  • Phân tích dữ liệu
  • Trực quan hóa dữ liệu (Dataviz)
  • Lựa chọn mô hình

Thời hạn linh hoạt

Đặt lại thời hạn theo lịch trình của bạn.

Giấy chứng nhận có thể chia sẻ

Kiếm chứng chỉ sau khi hoàn thành

100% trực tuyến

Bắt đầu ngay lập tức và học theo lịch trình của riêng bạn.

Cấp độ cho người bắt đầu

Bạn nên có kiến ​​thức làm việc về Notebook Python và Jupyter. & NBSP;

Khoảng. 14 giờ để hoàn thành

Những gì bạn sẽ học

Phát triển mã Python để làm sạch và chuẩn bị dữ liệu để phân tích - bao gồm xử lý các giá trị bị thiếu, định dạng, bình thường hóa và dữ liệu

Hướng dẫn python topics for data analytics - chủ đề python để phân tích dữ liệu

Thực hiện phân tích dữ liệu khám phá và áp dụng các kỹ thuật phân tích cho các bộ dữ liệu từ thực bằng các thư viện như gấu trúc, numpy và scipy

Thao tác dữ liệu bằng cách sử dụng DataFrames, tóm tắt dữ liệu, hiểu phân phối dữ liệu, thực hiện tương quan và tạo đường ống dữ liệu

Xây dựng và đánh giá các mô hình hồi quy bằng cách sử dụng thư viện Scikit-Learn học máy và sử dụng chúng để dự đoán và ra quyết định(Total 20 min), 1 reading, 6 quizzes

Kỹ năng bạn sẽ đạt được

Mô hình dự đoán(Total 19 min), 1 reading, 6 quizzes

Lập trình Python

Xây dựng và đánh giá các mô hình hồi quy bằng cách sử dụng thư viện Scikit-Learn học máy và sử dụng chúng để dự đoán và ra quyết định(Total 20 min), 1 reading, 6 quizzes

Kỹ năng bạn sẽ đạt được

Mô hình dự đoán(Total 27 min), 1 reading, 6 quizzes

Lập trình Python

  • Phân tích dữ liệu

    75.72%

  • Trực quan hóa dữ liệu (Dataviz)

    18.76%

  • Lựa chọn mô hình

    3.85%

  • Người hướng dẫn

    0.90%

  • Được cung cấp bởi

    0.73%

Giáo trình - những gì bạn sẽ học được từ khóa học nàyDATA ANALYSIS WITH PYTHON

Nhập bộ dữ liệuNov 23, 2019

6 video (tổng số 20 phút), 1 đọc, 6 câu đố

Dữ liệu WranglingNov 8, 2020

6 video (tổng cộng 19 phút), 1 đọc, 6 câu đố

Phân tích dữ liệu khám phá

Phát triển mô hình

6 video (tổng số 27 phút), 1 đọc, 6 câu đốJul 29, 2020

Đánh giá

5 saoJul 17, 2020

4 sao

3 sao

2 sao

  • 1 sao

  • Đánh giá hàng đầu từ phân tích dữ liệu với Python

bởi Bdnov 23, 2019

Những gì gấu trúc hoặc matplotlib không dạy bạn

Ảnh của Navin Rai trên unplash

Python đang thống trị hệ sinh thái khoa học dữ liệu. Những gì tôi nghĩ rằng hai lý do hàng đầu cho sự thống trị như vậy là tương đối dễ học và sự lựa chọn phong phú của các thư viện khoa học dữ liệu.

Python là một ngôn ngữ mục đích chung nên nó không chỉ dành cho khoa học dữ liệu. Phát triển web, ứng dụng di động và phát triển trò chơi là một số trường hợp sử dụng cho Python.

Nếu bạn chỉ sử dụng Python cho các nhiệm vụ liên quan đến khoa học dữ liệu, bạn không phải là một chuyên gia Python. Tuy nhiên, có một số khái niệm và tính năng cốt lõi mà tôi nghĩ bạn phải có trong sở hữu của bạn.

Những gì chúng tôi đề cập trong bài viết này không dành riêng cho thư viện. Chúng có thể được coi là python cơ sở cho khoa học dữ liệu. Ngay cả khi bạn chỉ sử dụng gấu trúc, matplotlib và scikit-learn, bạn cần có một sự hiểu biết toàn diện về những điều cơ bản của Python. Các thư viện như vậy cho rằng bạn quen thuộc với những điều cơ bản của Python.

Tôi sẽ giải thích ngắn gọn từng chủ đề với một vài ví dụ và cũng cung cấp một liên kết đến một bài viết chi tiết cho hầu hết các chủ đề.

1. Chức năng

Các chức năng đang xây dựng các khối trong Python. Họ lấy không hoặc nhiều đối số và trả về một giá trị. Chúng tôi tạo một chức năng bằng cách sử dụng từ khóa def.

Dưới đây là một chức năng đơn giản nhân lên hai số.

def multiply(a, b):
return a * b
multiply(5, 4)
20

Dưới đây là một ví dụ khác đánh giá một từ dựa trên độ dài của nó.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'

Các chức năng nên hoàn thành một nhiệm vụ duy nhất. Tạo một chức năng thực hiện một loạt các tác vụ bất chấp mục đích sử dụng các chức năng.

Chúng ta cũng nên gán tên mô tả cho các chức năng để chúng ta có ý tưởng về những gì nó làm mà không nhìn thấy mã.

2. Đối số từ khóa và vị trí

Khi chúng tôi xác định một hàm, chúng tôi chỉ định các tham số của nó. Khi một hàm được gọi, nó phải được cung cấp các giá trị cho các tham số cần thiết. Các giá trị cho các tham số còn được gọi là đối số.

Hãy xem xét chức năng nhân được tạo trong bước trước. Nó có hai tham số vì vậy chúng tôi cung cấp các giá trị cho các tham số này khi hàm được gọi.

  • Đối số vị trí chỉ được tuyên bố bởi một tên.
  • Đối số từ khóa được khai báo bằng một tên và giá trị mặc định.

Khi một hàm được gọi, các giá trị cho các đối số vị trí phải được đưa ra. Nếu không, chúng tôi sẽ gặp lỗi. Nếu chúng ta không chỉ định giá trị cho đối số từ khóa, nó sẽ lấy giá trị mặc định.

Hãy để xác định lại hàm nhân với các đối số từ khóa để chúng ta có thể thấy sự khác biệt.

def multiply(a=1, b=1):
return a * b
print(multiply(5, 4))
20
print(multiply())
1

3. *args và ** kwargs

Các chức năng đang xây dựng các khối trong Python. Họ lấy không hoặc nhiều đối số và trả về một giá trị. Python khá linh hoạt về cách các đối số được truyền đến một hàm. Các kwarg *args và ** giúp dễ dàng hơn và sạch sẽ hơn để xử lý các đối số.

  • *Args cho phép một hàm có bất kỳ số lượng đối số vị trí.

Đây là một ví dụ đơn giản:

def addition(*args):
result = 0
for i in args:
result += i
return result
print(addition(1,4))
5
print(addition(1,7,3))
11
  • ** kwargs cho phép một hàm lấy bất kỳ số lượng đối số từ khóa nào.

Theo mặc định, ** kwargs là một từ điển trống. Mỗi đối số từ khóa không xác định được lưu trữ dưới dạng một cặp giá trị khóa trong từ điển ** kwargs.

Đây là một ví dụ đơn giản:

def arg_printer(a, b, option=True, **kwargs):
print(a, b)
print(option)
print(kwargs)
arg_printer(3, 4, param1=5, param2=6)
3 4
True
{'param1': 5, 'param2': 6}

** kwargs cho phép một hàm lấy bất kỳ số lượng đối số từ khóa nào.

Theo mặc định, ** kwargs là một từ điển trống. Mỗi đối số từ khóa không xác định được lưu trữ dưới dạng một cặp giá trị khóa trong từ điển ** kwargs.

4. Các lớp học

Mô hình lập trình theo định hướng đối tượng (OOP) được xây dựng xung quanh ý tưởng có các đối tượng thuộc về một loại cụ thể. Theo một nghĩa nào đó, loại là những gì giải thích cho chúng ta đối tượng.

  • Tất cả mọi thứ trong Python là một đối tượng của một loại như số nguyên, danh sách, từ điển, chức năng, v.v. Chúng tôi xác định một loại đối tượng bằng cách sử dụng các lớp.
  • Các lớp sở hữu các thông tin sau:

Thuộc tính dữ liệu: những gì cần thiết để tạo một thể hiện của một lớp

Phương thức (nghĩa là các thuộc tính thủ tục): Cách chúng ta tương tác với các trường hợp của một lớp.is a built-in data structure in Python. It is represented as a collection of data points in square brackets. Lists can be used to store any data type or a mixture of different data types.

5. Danh sách

Listis một cấu trúc dữ liệu tích hợp trong Python. Nó được đại diện như một tập hợp các điểm dữ liệu trong dấu ngoặc vuông. Danh sách có thể được sử dụng để lưu trữ bất kỳ loại dữ liệu hoặc hỗn hợp các loại dữ liệu khác nhau.

words = ['data','science'] #create a listprint(words[0]) #access an item
'data'
words.append('machine') #add an itemprint(len(words)) #length of list
3
print(words)
['data', 'science', 'machine']

Danh sách có thể thay đổi, đó là một trong những lý do tại sao chúng thường được sử dụng. Vì vậy, chúng ta có thể xóa và thêm các mục. Cũng có thể cập nhật các mục của một danh sách.

Dưới đây là một vài ví dụ về cách tạo và sửa đổi một danh sách.

(Hình ảnh của tác giả)

Dưới đây là một danh sách hiểu đơn giản tạo ra một danh sách từ một danh sách khác dựa trên một điều kiện nhất định.

a = [4,6,7,3,2]b = [x for x in a if x > 5]
b
[6, 7]

Danh sách sau đây Hiểu được áp dụng một hàm cho các mục trong danh sách khác.

words = ['data','science','machine','learning']b = [len(word) for word in words]
b
[4, 7, 7, 8]

7. Từ điển

Từ điển là một bộ sưu tập không có thứ tự các cặp giá trị khóa. Mỗi mục có một khóa và giá trị. Một từ điển có thể được coi là một danh sách với chỉ mục đặc biệt.

Các phím phải là duy nhất và bất biến. Vì vậy, chúng ta có thể sử dụng chuỗi, số (int hoặc float) hoặc bộ dữ liệu làm khóa. Giá trị có thể thuộc bất kỳ loại.

Hãy xem xét một trường hợp chúng ta cần lưu trữ các lớp học sinh. Chúng ta có thể lưu trữ chúng trong một từ điển hoặc một danh sách.

(Hình ảnh của tác giả)

Một cách để tạo một từ điển là viết các cặp giá trị khóa trong niềng răng xoăn.

grades = {'John':'A', 'Emily':'A+', 'Betty':'B', 'Mike':'C', 'Ashley':'A'}

Chúng ta có thể truy cập một giá trị trong một từ điển bằng cách sử dụng khóa của nó.

grades['John']
'A'
grades.get('Betty')
'B'

8. Bộ

Một bộ là một bộ sưu tập không có thứ tự của các đối tượng băm khác biệt. Đây là định nghĩa của một bộ trong tài liệu Python chính thức. Hãy để mở nó ra.

  • Bộ sưu tập không theo thứ tự: Nó chứa số các yếu tố bằng không hoặc nhiều hơn. Không có thứ tự liên quan đến các yếu tố của một bộ. Do đó, nó không hỗ trợ lập chỉ mục hoặc cắt như chúng tôi làm với danh sách.
  • Các đối tượng băm khác biệt: Một bộ chứa các yếu tố duy nhất. Hashable có nghĩa là bất biến. Mặc dù các bộ có thể thay đổi, các yếu tố của các bộ phải là bất biến.

Chúng ta có thể tạo một tập hợp bằng cách đặt các đối tượng được phân tách bằng dấu phẩy trong niềng răng xoăn.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
0

Các bộ không chứa các phần tử lặp lại, vì vậy ngay cả khi chúng ta cố gắng thêm các phần tử giống nhau hơn một lần, tập kết quả sẽ chứa các yếu tố duy nhất.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
1

9. Bộ dữ liệu

Tuple là một tập hợp các giá trị được phân tách bằng dấu phẩy và được đặt trong ngoặc đơn. Không giống như danh sách, bộ dữ liệu là bất biến. Khả năng bất biến có thể được coi là tính năng xác định của các bộ dữ liệu.

Bộ dữ liệu bao gồm các giá trị trong ngoặc đơn và được phân tách bằng dấu phẩy.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
2

Chúng ta cũng có thể tạo bộ dữ liệu mà không cần sử dụng dấu ngoặc đơn. Một chuỗi các giá trị được phân tách bằng dấu phẩy sẽ tạo ra một tuple.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
3

Một trong những trường hợp sử dụng phổ biến nhất của các bộ dữ liệu là với các hàm trả về nhiều giá trị.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
4

10. Biểu thức Lambda

Biểu thức Lambda là các dạng chức năng đặc biệt. Nói chung, các biểu thức Lambda được sử dụng mà không có tên.

Hãy xem xét chức năng sau trả về bình phương của một số nhất định.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
5

Biểu thức Lambda tương đương là:

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
6

Xem xét một hoạt động cần được thực hiện một lần hoặc rất ít lần. Hơn nữa, chúng tôi có nhiều biến thể của hoạt động này hơi khác so với bản gốc. Trong trường hợp như vậy, không lý tưởng để xác định một chức năng riêng cho mỗi thao tác. Thay vào đó, các biểu thức Lambda cung cấp một cách hiệu quả hơn nhiều để hoàn thành các nhiệm vụ.

Sự kết luận

Chúng tôi đã đề cập đến một số khái niệm và chủ đề chính của Python. Hầu hết các nhiệm vụ liên quan đến khoa học dữ liệu được thực hiện thông qua các thư viện và khung của bên thứ ba như gấu trúc, matplotlib, scikit-learn, tenorflow, v.v.

Tuy nhiên, chúng ta nên có một sự hiểu biết toàn diện về các hoạt động và khái niệm cơ bản về Python để sử dụng hiệu quả các thư viện đó. Họ cho rằng bạn quen thuộc với những điều cơ bản của Python.

Cảm ơn bạn đã đọc. Vui lòng cho tôi biết nếu bạn có bất kỳ phản hồi.

Các chủ đề phân tích dữ liệu Python là gì?

Bạn sẽ làm việc với một số thư viện Python nguồn mở, bao gồm gấu trúc và numpy để tải, thao tác, phân tích và trực quan hóa các bộ dữ liệu tuyệt vời. Bạn cũng sẽ làm việc với Scipy và Scikit-Learn, để xây dựng các mô hình học máy và đưa ra dự đoán.load, manipulate, analyze, and visualize cool datasets. You will also work with scipy and scikit-learn, to build machine learning models and make predictions.

Chủ đề trong phân tích dữ liệu là gì?

Miền phân tích dữ liệu đã phát triển dưới nhiều tên khác nhau bao gồm xử lý phân tích trực tuyến (OLAP), khai thác dữ liệu, phân tích thị giác, phân tích dữ liệu lớn và phân tích nhận thức.Ngoài ra thuật ngữ phân tích được sử dụng để chỉ bất kỳ việc ra quyết định dựa trên dữ liệu nào.online analytical processing (OLAP), data mining, visual analytics, big data analytics, and cognitive analytics. Also the term analytics is used to refer to any data-driven decision-making.

Làm thế nào python được sử dụng trong phân tích dữ liệu?

Một trong những cách sử dụng phổ biến nhất cho Python là khả năng tạo và quản lý các cấu trúc dữ liệu một cách nhanh chóng - ví dụ, Pandas cung cấp rất nhiều công cụ để thao tác, phân tích và thậm chí đại diện cho các cấu trúc dữ liệu và bộ dữ liệu phức tạp.create and manage data structures quickly — Pandas, for instance, offers a plethora of tools to manipulate, analyze, and even represent data structures and complex datasets.

Python nào là tốt nhất để phân tích dữ liệu?

Pandas (phân tích dữ liệu Python) là phải trong vòng đời khoa học dữ liệu.Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với sự numpy trong matplotlib. is a must in the data science life cycle. It is the most popular and widely used Python library for data science, along with NumPy in matplotlib.