Hướng dẫn how do you merge two tables in python? - làm thế nào để bạn hợp nhất hai bảng trong python?
Một tính năng thiết yếu được cung cấp bởi Pandas là các hoạt động hiệu suất và hợp nhất hiệu suất cao, hiệu suất cao của nó. Nếu bạn đã từng làm việc với cơ sở dữ liệu, bạn nên làm quen với loại tương tác dữ liệu này. Giao diện chính cho điều này là hàm Show
Để thuận tiện, chúng tôi sẽ bắt đầu bằng cách xác định lại chức năng df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')8 từ phần trước: In [1]: import pandas as pd import numpy as np class display(object): """Display HTML representation of multiple objects""" template = """ Đại số quan hệHành vi được thực hiện trong df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9 là một tập hợp con của cái được gọi là đại số quan hệ, đây là một bộ quy tắc chính thức để thao tác dữ liệu quan hệ và tạo thành nền tảng khái niệm của các hoạt động có sẵn trong hầu hết các cơ sở dữ liệu. Sức mạnh của phương pháp đại số quan hệ là nó đề xuất một số hoạt động nguyên thủy, trở thành khối xây dựng của các hoạt động phức tạp hơn trên bất kỳ bộ dữ liệu nào. Với từ vựng về các hoạt động cơ bản này được triển khai hiệu quả trong cơ sở dữ liệu hoặc chương trình khác, có thể thực hiện một loạt các hoạt động tổng hợp khá phức tạp. Pandas thực hiện một số khối xây dựng cơ bản này trong hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9 và phương pháp df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")1 liên quan của df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")2 và df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")3S. Như chúng ta sẽ thấy, những điều này cho phép bạn liên kết hiệu quả dữ liệu từ các nguồn khác nhau. Các loại tham giaHàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9 thực hiện một số loại tham gia: tham gia một-một, nhiều một và nhiều-nhiều. Tất cả ba loại nối được truy cập thông qua một cuộc gọi giống hệt nhau đến giao diện df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9; Loại tham gia được thực hiện phụ thuộc vào dạng dữ liệu đầu vào. Ở đây chúng tôi sẽ trình bày các ví dụ đơn giản về ba loại hợp nhất và thảo luận về các tùy chọn chi tiết bên dưới. Tham gia một-mộtCó lẽ loại expresion hợp nhất đơn giản nhất là sự tham gia một-một, theo nhiều cách rất giống với sự kết hợp của cột được thấy trong việc kết hợp các bộ dữ liệu: Concat & append. Như một ví dụ cụ thể, hãy xem xét hai df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")6 sau đây chứa thông tin về một số nhân viên trong một công ty: In [2]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2') Out[2]: df1
df2
Kiện In [3]: df3 = pd.merge(df1, df2) df3 Out[3]:
Giờ Để kết hợp thông tin này thành một df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)") 7, chúng ta có thể sử dụng hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)') 9:Hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9 nhận ra rằng mỗi df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")7 có cột "nhân viên" và tự động tham gia bằng cách sử dụng cột này làm khóa. Kết quả của sự hợp nhất là một df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")7 mới kết hợp thông tin từ hai đầu vào. Lưu ý rằng thứ tự của các mục trong mỗi cột không nhất thiết phải được duy trì: trong trường hợp này, thứ tự của cột "Nhân viên" khác nhau giữa display('df1', 'df2', "pd.merge(df1, df2, on='employee')")2 và display('df1', 'df2', "pd.merge(df1, df2, on='employee')")3 và hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9 tính chính xác cho việc này. Ngoài ra, hãy nhớ rằng sự hợp nhất nói chung sẽ loại bỏ chỉ mục, ngoại trừ trong trường hợp đặc biệt hợp nhất theo chỉ mục (xem các từ khóa display('df1', 'df2', "pd.merge(df1, df2, on='employee')")5 và display('df1', 'df2', "pd.merge(df1, df2, on='employee')")6, được thảo luận trong giây lát). In [4]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)') Out[4]: df3
df4
Để kết hợp thông tin này thành một df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")7, chúng ta có thể sử dụng hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9:
Để kết hợp thông tin này thành một df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")7, chúng ta có thể sử dụng hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')9: Hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)') 9 nhận ra rằng mỗi df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)") 7 có cột "nhân viên" và tự động tham gia bằng cách sử dụng cột này làm khóa. Kết quả của sự hợp nhất là một df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)") 7 mới kết hợp thông tin từ hai đầu vào. Lưu ý rằng thứ tự của các mục trong mỗi cột không nhất thiết phải được duy trì: trong trường hợp này, thứ tự của cột "Nhân viên" khác nhau giữa display('df1', 'df2', "pd.merge(df1, df2, on='employee')") 2 và display('df1', 'df2', "pd.merge(df1, df2, on='employee')") 3 và hàm df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)') 9 tính chính xác cho việc này. Ngoài ra, hãy nhớ rằng sự hợp nhất nói chung sẽ loại bỏ chỉ mục, ngoại trừ trong trường hợp đặc biệt hợp nhất theo chỉ mục (xem các từ khóa display('df1', 'df2', "pd.merge(df1, df2, on='employee')") 5 và display('df1', 'df2', "pd.merge(df1, df2, on='employee')") 6, được thảo luận trong giây lát).Tham gia nhiều-một In [5]: df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")
Out[5]: df1
df5
PD.merge (DF1, DF5)
PD.merge (DF1, DF5) Nhân viêntập đoàn kỹ năngBob In [6]: display('df1', 'df2', "pd.merge(df1, df2, on='employee')") Out[6]: df1
df2
Linux
Linux LisaKiện In [7]: df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'salary': [70000, 80000, 120000, 90000]}) display('df1', 'df3', 'pd.merge(df1, df3, left_on="employee", right_on="name")') Out[7]: df1
df3
Linux
Linux In [8]: pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1) Out[8]:
LinuxLisa In [9]: df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a') Kiện df1a
df2a
Mã hóa In [10]: display('df1a', 'df2a', "pd.merge(df1a, df2a, left_index=True, right_index=True)") Out[10]: df1a
df2a
Mã hóa
Mã hóa In [11]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')0 Out[11]: df1a
df2a
df1a.join(df2a)
Mã hóa In [12]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')1 Out[12]: df1a
df3
Linux
Linux LisaKiện In [13]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')2 Out[13]: df6
df7
rượu
Tên In [14]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')3 Out[14]:
Tên In [15]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')4 Out[15]: df6
df7
rượu
rượu In [16]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')5 Out[16]: df6
df7
rượu
Tên uống rượuJoseph In [17]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')6 Out[17]: df8
df9
món ăn
món ăn In [18]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')7 Out[18]: df8
df9
món ăn
món ăn Ở đây chúng tôi đã hợp nhất hai bộ dữ liệu chỉ có một mục "tên" một điểm chung: Mary. Theo mặc định, kết quả chứa giao điểm của hai bộ đầu vào; Đây là những gì được biết đến như một tham gia bên trong. Chúng tôi có thể chỉ định điều này rõ ràng bằng cách sử dụng từ khóa df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a') 3, mặc định là df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a') 4:Các tùy chọn khác cho từ khóa df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a')3 là df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a')6, df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a')7 và df1a = df1.set_index('employee') df2a = df2.set_index('employee') display('df1a', 'df2a')8. Một tham gia bên ngoài trả về một sự tham gia của các cột đầu vào và điền vào tất cả các giá trị bị thiếu với NAS: In [19]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')8 Peter In [20]: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')9 Out[20]: pop.head()
areas.head()
abbrevs.head()
pd.merge (df8, df9, on = "name") Do đầu ra sẽ có hai tên cột mâu thuẫn, hàm hợp nhất tự động nối thêm hậu tố display('df1a', 'df2a', "pd.merge(df1a, df2a, left_index=True, right_index=True)")2 hoặc display('df1a', 'df2a', "pd.merge(df1a, df2a, left_index=True, right_index=True)")3 để làm cho các cột đầu ra duy nhất. Nếu các mặc định này không phù hợp, có thể chỉ định một hậu tố tùy chỉnh bằng từ khóa display('df1a', 'df2a', "pd.merge(df1a, df2a, left_index=True, right_index=True)")0: In [21]: df3 = pd.merge(df1, df2) df30 Out[21]:
thứ hạng Out[22]: df3 = pd.merge(df1, df2) df31 Bob In [23]: df3 = pd.merge(df1, df2) df32 Out[23]:
bia Quan trọng hơn, chúng tôi cũng thấy rằng một số mục df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')03 mới cũng không có giá trị, điều đó có nghĩa là không có mục nhập tương ứng trong khóa df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')00! Hãy tìm ra vùng nào thiếu trận đấu này: In [24]: df3 = pd.merge(df1, df2) df33
Out[24]: df3 = pd.merge(df1, df2) df34 Chúng tôi có thể nhanh chóng suy ra vấn đề: Dữ liệu dân số của chúng tôi bao gồm các mục cho Puerto Rico (PR) và Hoa Kỳ nói chung (Hoa Kỳ), trong khi các mục này không xuất hiện trong khóa viết tắt của tiểu bang. Chúng tôi có thể sửa chữa những thứ này một cách nhanh chóng bằng cách điền vào các mục thích hợp: In [25]: df3 = pd.merge(df1, df2) df35 Out[25]: df3 = pd.merge(df1, df2) df36 Không còn nulls trong cột df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')03: Tất cả chúng tôi đều được thiết lập! Bây giờ chúng ta có thể hợp nhất kết quả với dữ liệu khu vực bằng một quy trình tương tự. Kiểm tra kết quả của chúng tôi, chúng tôi sẽ muốn tham gia vào cột df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')03 trong cả hai: In [26]: df3 = pd.merge(df1, df2) df37 Out[26]:
toàn bộ Out[27]: df3 = pd.merge(df1, df2) df38 Một lần nữa, chúng ta hãy kiểm tra các null để xem liệu có bất kỳ sự không phù hợp nào không: In [28]: df3 = pd.merge(df1, df2) df39 Out[28]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')0 Có nulls trong cột df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')07; Chúng ta có thể xem xét để xem khu vực nào đã bị bỏ qua ở đây: In [29]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')1 Out[29]:
toàn bộ In [30]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')2 Out[30]:
toàn bộ In [31]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')3 In [32]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')4 Out[32]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')5 Một lần nữa, chúng ta hãy kiểm tra các null để xem liệu có bất kỳ sự không phù hợp nào không: Có nulls trong cột df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')07; Chúng ta có thể xem xét để xem khu vực nào đã bị bỏ qua ở đây: Out[33]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']}) display('df3', 'df4', 'pd.merge(df3, df4)')6 Chúng tôi thấy rằng df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')08 df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']}) display('df1', 'df5', "pd.merge(df1, df5)")7 của chúng tôi không chứa toàn bộ khu vực của Hoa Kỳ. Ví dụ, chúng tôi có thể chèn giá trị thích hợp (sử dụng tổng của tất cả các khu vực nhà nước), nhưng trong trường hợp này, chúng tôi sẽ bỏ các giá trị null vì mật độ dân số của toàn bộ Hoa Kỳ không liên quan đến cuộc thảo luận hiện tại của chúng tôi: Bây giờ chúng tôi có tất cả các dữ liệu chúng tôi cần. Để trả lời câu hỏi quan tâm, trước tiên chúng ta hãy chọn phần dữ liệu tương ứng với năm 2000 và tổng dân số. Chúng tôi sẽ sử dụng chức năng df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')10 để thực hiện điều này một cách nhanh chóng (điều này yêu cầu gói df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')11 được cài đặt; xem Pandas hiệu suất cao: df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')12 và df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]}) display('df1', 'df2')10): Làm thế nào để bạn kết hợp các bảng trong Python?Hàm concat () thực hiện các hoạt động nối của nhiều bảng dọc theo một trong các trục (theo hàng hóa hoặc thông thái cột).concat() function performs concatenation operations of multiple tables along one of the axes (row-wise or column-wise).
Làm cách nào để hợp nhất hai bảng trong gấu trúc?Để tham gia các DataFrames này, Pandas cung cấp nhiều hàm như Concat (), Merge (), tham gia (), v.v. Trong phần này, bạn sẽ thực hành bằng hàm Merge () của gấu trúc.Bạn có thể nhận thấy rằng các khung dữ liệu hiện được hợp nhất vào một khung dữ liệu duy nhất dựa trên các giá trị chung có trong cột ID của cả hai khung dữ liệu.pandas provides multiple functions like concat() , merge() , join() , etc. In this section, you will practice using merge() function of pandas. You can notice that the DataFrames are now merged into a single DataFrame based on the common values present in the id column of both the DataFrames.
Làm cách nào để hợp nhất hai khung dữ liệu trong Python?Hàm concat () có thể được sử dụng để kết hợp hai khung dữ liệu bằng cách thêm các hàng của cái này vào cái kia.Hàm hợp nhất () tương đương với mệnh đề tham gia SQL.'trái', 'phải' và 'bên trong' tham gia đều có thể.. The merge() function is equivalent to the SQL JOIN clause. 'left', 'right' and 'inner' joins are all possible.
Làm thế nào để bạn hợp nhất các bảng dữ liệu?Dưới đây là các bước để hợp nhất các bảng sau:.. Nhấp vào tab Dữ liệu .. Trong nhóm dữ liệu GET & Biến đổi, nhấp vào 'Nhận dữ liệu' .. Trong thả xuống, nhấp vào 'Kết hợp các truy vấn .. Nhấp vào 'Hợp nhất'..... Trong hộp thoại hợp nhất, chọn 'Merge1' từ lần thả xuống đầu tiên .. Chọn 'Vùng' từ lần thả xuống thứ hai .. |