Hướng dẫn what are main topics in python for data science? - chủ đề chính trong python cho khoa học dữ liệu là gì?

Những gì gấu trúc hoặc matplotlib không dạy bạn

Ảnh của Navin Rai trên unplash

Python đang thống trị hệ sinh thái khoa học dữ liệu. Những gì tôi nghĩ rằng hai lý do hàng đầu cho sự thống trị như vậy là tương đối dễ học và sự lựa chọn phong phú của các thư viện khoa học dữ liệu.

Python là một ngôn ngữ mục đích chung nên nó không chỉ dành cho khoa học dữ liệu. Phát triển web, ứng dụng di động và phát triển trò chơi là một số trường hợp sử dụng cho Python.

Nếu bạn chỉ sử dụng Python cho các nhiệm vụ liên quan đến khoa học dữ liệu, bạn không phải là một chuyên gia Python. Tuy nhiên, có một số khái niệm và tính năng cốt lõi mà tôi nghĩ bạn phải có trong sở hữu của bạn.

Những gì chúng tôi đề cập trong bài viết này không dành riêng cho thư viện. Chúng có thể được coi là python cơ sở cho khoa học dữ liệu. Ngay cả khi bạn chỉ sử dụng gấu trúc, matplotlib và scikit-learn, bạn cần có một sự hiểu biết toàn diện về những điều cơ bản của Python. Các thư viện như vậy cho rằng bạn quen thuộc với những điều cơ bản của Python.

Tôi sẽ giải thích ngắn gọn từng chủ đề với một vài ví dụ và cũng cung cấp một liên kết đến một bài viết chi tiết cho hầu hết các chủ đề.

1. Chức năng

Các chức năng đang xây dựng các khối trong Python. Họ lấy không hoặc nhiều đối số và trả về một giá trị. Chúng tôi tạo một chức năng bằng cách sử dụng từ khóa def.

Dưới đây là một chức năng đơn giản nhân lên hai số.

def multiply(a, b):
return a * b
multiply(5, 4)
20

Dưới đây là một ví dụ khác đánh giá một từ dựa trên độ dài của nó.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'

Các chức năng nên hoàn thành một nhiệm vụ duy nhất. Tạo một chức năng thực hiện một loạt các tác vụ bất chấp mục đích sử dụng các chức năng.

Chúng ta cũng nên gán tên mô tả cho các chức năng để chúng ta có ý tưởng về những gì nó làm mà không nhìn thấy mã.

2. Đối số từ khóa và vị trí

Khi chúng tôi xác định một hàm, chúng tôi chỉ định các tham số của nó. Khi một hàm được gọi, nó phải được cung cấp các giá trị cho các tham số cần thiết. Các giá trị cho các tham số còn được gọi là đối số.

Hãy xem xét chức năng nhân được tạo trong bước trước. Nó có hai tham số vì vậy chúng tôi cung cấp các giá trị cho các tham số này khi hàm được gọi.

  • Đối số vị trí chỉ được tuyên bố bởi một tên.
  • Đối số từ khóa được khai báo bằng một tên và giá trị mặc định.

Khi một hàm được gọi, các giá trị cho các đối số vị trí phải được đưa ra. Nếu không, chúng tôi sẽ gặp lỗi. Nếu chúng ta không chỉ định giá trị cho đối số từ khóa, nó sẽ lấy giá trị mặc định.

Hãy để xác định lại hàm nhân với các đối số từ khóa để chúng ta có thể thấy sự khác biệt.

def multiply(a=1, b=1):
return a * b
print(multiply(5, 4))
20
print(multiply())
1

3. *args và ** kwargs

Các chức năng đang xây dựng các khối trong Python. Họ lấy không hoặc nhiều đối số và trả về một giá trị. Python khá linh hoạt về cách các đối số được truyền đến một hàm. Các kwarg *args và ** giúp dễ dàng hơn và sạch sẽ hơn để xử lý các đối số.

  • *Args cho phép một hàm có bất kỳ số lượng đối số vị trí.

Đây là một ví dụ đơn giản:

def addition(*args):
result = 0
for i in args:
result += i
return result
print(addition(1,4))
5
print(addition(1,7,3))
11
  • ** kwargs cho phép một hàm lấy bất kỳ số lượng đối số từ khóa nào.

Theo mặc định, ** kwargs là một từ điển trống. Mỗi đối số từ khóa không xác định được lưu trữ dưới dạng một cặp giá trị khóa trong từ điển ** kwargs.

Đây là một ví dụ đơn giản:

def arg_printer(a, b, option=True, **kwargs):
print(a, b)
print(option)
print(kwargs)
arg_printer(3, 4, param1=5, param2=6)
3 4
True
{'param1': 5, 'param2': 6}

** kwargs cho phép một hàm lấy bất kỳ số lượng đối số từ khóa nào.

Theo mặc định, ** kwargs là một từ điển trống. Mỗi đối số từ khóa không xác định được lưu trữ dưới dạng một cặp giá trị khóa trong từ điển ** kwargs.

4. Các lớp học

Mô hình lập trình theo định hướng đối tượng (OOP) được xây dựng xung quanh ý tưởng có các đối tượng thuộc về một loại cụ thể. Theo một nghĩa nào đó, loại là những gì giải thích cho chúng ta đối tượng.

  • Tất cả mọi thứ trong Python là một đối tượng của một loại như số nguyên, danh sách, từ điển, chức năng, v.v. Chúng tôi xác định một loại đối tượng bằng cách sử dụng các lớp.
  • Các lớp sở hữu các thông tin sau:

Thuộc tính dữ liệu: những gì cần thiết để tạo một thể hiện của một lớp

Phương thức (nghĩa là các thuộc tính thủ tục): Cách chúng ta tương tác với các trường hợp của một lớp.is a built-in data structure in Python. It is represented as a collection of data points in square brackets. Lists can be used to store any data type or a mixture of different data types.

5. Danh sách

Listis một cấu trúc dữ liệu tích hợp trong Python. Nó được đại diện như một tập hợp các điểm dữ liệu trong dấu ngoặc vuông. Danh sách có thể được sử dụng để lưu trữ bất kỳ loại dữ liệu hoặc hỗn hợp các loại dữ liệu khác nhau.

words = ['data','science'] #create a listprint(words[0]) #access an item
'data'
words.append('machine') #add an itemprint(len(words)) #length of list
3
print(words)
['data', 'science', 'machine']

Danh sách có thể thay đổi, đó là một trong những lý do tại sao chúng thường được sử dụng. Vì vậy, chúng ta có thể xóa và thêm các mục. Cũng có thể cập nhật các mục của một danh sách.

Dưới đây là một vài ví dụ về cách tạo và sửa đổi một danh sách.

6. Danh sách hiểu

Danh sách hiểu về cơ bản là tạo danh sách dựa trên các vòng lặp khác như danh sách, bộ dữ liệu, bộ, v.v. Nó cũng có thể được mô tả là đại diện cho và nếu các vòng lặp có cú pháp đơn giản và hấp dẫn hơn. Danh sách toàn diện tương đối nhanh hơn so với các vòng lặp.

a = [4,6,7,3,2]b = [x for x in a if x > 5]
b
[6, 7]

(Hình ảnh của tác giả)

words = ['data','science','machine','learning']b = [len(word) for word in words]
b
[4, 7, 7, 8]

Dưới đây là một danh sách hiểu đơn giản tạo ra một danh sách từ một danh sách khác dựa trên một điều kiện nhất định.

Danh sách sau đây Hiểu được áp dụng một hàm cho các mục trong danh sách khác.

Các phím phải là duy nhất và bất biến. Vì vậy, chúng ta có thể sử dụng chuỗi, số (int hoặc float) hoặc bộ dữ liệu làm khóa. Giá trị có thể thuộc bất kỳ loại.

Hãy xem xét một trường hợp chúng ta cần lưu trữ các lớp học sinh. Chúng ta có thể lưu trữ chúng trong một từ điển hoặc một danh sách.

(Hình ảnh của tác giả)

Một cách để tạo một từ điển là viết các cặp giá trị khóa trong niềng răng xoăn.

grades = {'John':'A', 'Emily':'A+', 'Betty':'B', 'Mike':'C', 'Ashley':'A'}

Chúng ta có thể truy cập một giá trị trong một từ điển bằng cách sử dụng khóa của nó.

grades['John']
'A'
grades.get('Betty')
'B'

8. Bộ

Một bộ là một bộ sưu tập không có thứ tự của các đối tượng băm khác biệt. Đây là định nghĩa của một bộ trong tài liệu Python chính thức. Hãy để mở nó ra.

  • Bộ sưu tập không theo thứ tự: Nó chứa số các yếu tố bằng không hoặc nhiều hơn. Không có thứ tự liên quan đến các yếu tố của một bộ. Do đó, nó không hỗ trợ lập chỉ mục hoặc cắt như chúng tôi làm với danh sách.
  • Các đối tượng băm khác biệt: Một bộ chứa các yếu tố duy nhất. Hashable có nghĩa là bất biến. Mặc dù các bộ có thể thay đổi, các yếu tố của các bộ phải là bất biến.

Chúng ta có thể tạo một tập hợp bằng cách đặt các đối tượng được phân tách bằng dấu phẩy trong niềng răng xoăn.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
0

Các bộ không chứa các phần tử lặp lại, vì vậy ngay cả khi chúng ta cố gắng thêm các phần tử giống nhau hơn một lần, tập kết quả sẽ chứa các yếu tố duy nhất.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
1

9. Bộ dữ liệu

Tuple là một tập hợp các giá trị được phân tách bằng dấu phẩy và được đặt trong ngoặc đơn. Không giống như danh sách, bộ dữ liệu là bất biến. Khả năng bất biến có thể được coi là tính năng xác định của các bộ dữ liệu.

Bộ dữ liệu bao gồm các giá trị trong ngoặc đơn và được phân tách bằng dấu phẩy.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
2

Chúng ta cũng có thể tạo bộ dữ liệu mà không cần sử dụng dấu ngoặc đơn. Một chuỗi các giá trị được phân tách bằng dấu phẩy sẽ tạo ra một tuple.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
3

Một trong những trường hợp sử dụng phổ biến nhất của các bộ dữ liệu là với các hàm trả về nhiều giá trị.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
4

10. Biểu thức Lambda

Biểu thức Lambda là các dạng chức năng đặc biệt. Nói chung, các biểu thức Lambda được sử dụng mà không có tên.

Hãy xem xét chức năng sau trả về bình phương của một số nhất định.

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
5

Biểu thức Lambda tương đương là:

def is_long(word):
if len(word) > 8:
return f"{word} is a long word."
is_long("artificial")
'artificial is a long word.'
6

Xem xét một hoạt động cần được thực hiện một lần hoặc rất ít lần. Hơn nữa, chúng tôi có nhiều biến thể của hoạt động này hơi khác so với bản gốc. Trong trường hợp như vậy, không lý tưởng để xác định một chức năng riêng cho mỗi thao tác. Thay vào đó, các biểu thức Lambda cung cấp một cách hiệu quả hơn nhiều để hoàn thành các nhiệm vụ.

Sự kết luận

Chúng tôi đã đề cập đến một số khái niệm và chủ đề chính của Python. Hầu hết các nhiệm vụ liên quan đến khoa học dữ liệu được thực hiện thông qua các thư viện và khung của bên thứ ba như gấu trúc, matplotlib, scikit-learn, tenorflow, v.v.

Tuy nhiên, chúng ta nên có một sự hiểu biết toàn diện về các hoạt động và khái niệm cơ bản về Python để sử dụng hiệu quả các thư viện đó. Họ cho rằng bạn quen thuộc với những điều cơ bản của Python.

Cảm ơn bạn đã đọc. Vui lòng cho tôi biết nếu bạn có bất kỳ phản hồi.

Các chủ đề chính trong khoa học dữ liệu là gì?

Giáo trình khoa học dữ liệu được thành lập của ba thành phần chính: dữ liệu lớn, học máy và mô hình hóa trong khoa học dữ liệu.Các chủ đề chính trong giáo trình khoa học dữ liệu là thống kê, mã hóa, trí thông minh kinh doanh, cấu trúc dữ liệu, toán học, học máy và thuật toán, trong số những người khác.Statistics, Coding, Business Intelligence, Data Structures, Mathematics, Machine Learning, and Algorithms, amongst others.

Python cơ bản cho khoa học dữ liệu là gì?

Khóa học Python này cung cấp một giới thiệu thân thiện với người mới bắt đầu về Python cho khoa học dữ liệu.Thực hành thông qua các bài tập trong phòng thí nghiệm và bạn sẽ sẵn sàng tạo các kịch bản Python đầu tiên của mình!a beginner-friendly introduction to Python for Data Science. Practice through lab exercises, and you'll be ready to create your first Python scripts on your own!

Các chủ đề chính của Python là gì?

10 Các chủ đề Python phải biết cho khoa học dữ liệu..
Chức năng.Các chức năng đang xây dựng các khối trong Python.....
Đối số vị trí và từ khóa.....
*args và ** kwargs.....
10 ví dụ để làm chủ *args và ** kwargs trong Python.....
Các lớp học.....
Danh sách.....
11 Các hoạt động phải biết để làm chủ danh sách Python.....
Danh sách hiểu ..