Hướng dẫn how do i pull data from aws s3 using python? - làm cách nào để lấy dữ liệu từ aws s3 bằng python?
Trong bài viết này, tôi sẽ giải thích Amazon S3 là gì và làm thế nào để kết nối với nó bằng Python. Bài viết này sẽ tập trung vào những người mới bắt đầu đang cố gắng để có được Python và làm việc xung quanh hệ sinh thái AWS. AWS, như bạn có thể biết, là một trong những nhà cung cấp đám mây lớn nhất cùng với nền tảng Microsoft Azure và Google Cloud. Có rất nhiều dịch vụ được cung cấp bởi Amazon bao gồm AWS S3. Amazon S3, cũng được viết tắt là Dịch vụ lưu trữ đơn giản Amazon là dịch vụ lưu trữ được cung cấp bởi nhà cung cấp đám mây cho phép người dùng lưu trữ bất kỳ loại tệp nào trong dịch vụ này. Nó được thiết kế để làm cho điện toán quy mô web dễ dàng hơn cho các nhà phát triển. Show Theo định nghĩa được cung cấp bởi Wikipedia - Dịch vụ lưu trữ đơn giản của Amazon S3 hoặc Amazon là dịch vụ được cung cấp bởi Amazon Web Services (AWS) cung cấp lưu trữ đối tượng thông qua giao diện dịch vụ web. Các đơn vị lưu trữ riêng lẻ của Amazon S3 được gọi là xô. Những thùng này cũng có thể được coi là thư mục gốc, theo đó tất cả các mục tiếp theo sẽ được lưu trữ. Tất cả các thư mục và tệp được coi là đối tượng trong hệ sinh thái S3. Các đối tượng này được thể hiện bằng một khóa duy nhất và được chỉ định của người dùng. Bạn có thể truy cập vào các nhóm Amazon S3 bằng cách sử dụng bất kỳ một trong bốn cách sau đây.
Các đối tượng hoặc vật phẩm được lưu trữ bằng Amazon CLI hoặc API còn lại được giới hạn ở kích thước 5TB với thông tin siêu dữ liệu 2kb. Đọc thêm về Amazon S3 từ tài liệu chính thức từ Amazon. Điều kiện tiên quyếtNhư đã đề cập, trong bài viết này, chúng tôi sẽ sử dụng AWS S3 và Python để kết nối với dịch vụ AWS, các điều kiện tiên quyết sau đây phải được thực hiện.
Sử dụng AWS S3 từ bảng điều khiểnKhi bạn đã đăng ký cho Amazon Web Services, hãy đăng nhập vào ứng dụng Bảng điều khiển. Nhấp vào Dịch vụ và chọn S3 trong kho lưu trữ.
Hình 1 - Bắt đầu S3 Bạn sẽ thấy rằng màn hình chính S3 mở ra trông giống như bên dưới.
Hình 2 - Màn hình chính AWS S3 Như bạn có thể thấy trong hình trên, tôi chưa tạo ra bất kỳ thùng nào trong S3 của mình. Hãy để chúng tôi đi trước và tạo ra một số xô đầu tiên. Tôi sẽ tạo hai thùng với các tên như sau.
Hình 3 - Tạo các thùng S3 Lặp lại giống nhau cho cả hai thùng. Khi các thùng được tạo, bạn có thể thấy danh sách như sau.
Hình 4 - Xô S3 được tạo ra Tôi cũng sẽ tải một tệp CSV mẫu vào một trong các thùng chỉ để đọc dữ liệu từ nó sau trong quá trình hướng dẫn.
Hình 5 - Tải lên tệp CSV mẫu được tải lên Tạo mã thông báo bí mậtBây giờ chúng tôi đã tạo ra các thùng của mình trong S3, bước tiếp theo là tiếp tục và tạo thông tin đăng nhập để truy cập vào các thùng S3 bằng cách sử dụng Python. Bạn có thể làm theo hướng dẫn này để tạo thông tin đăng nhập AWS hoặc theo dõi tài liệu chính thức từ Amazon. Khi các thông tin này được tạo, vui lòng lưu thông tin này vào một vị trí được bảo mật. Một mẫu của khóa truy cập và khóa bí mật như sau. Khóa truy cập: AKIAIOSFODNN7EXEXMample Bí mật: wjalrxutnfemi/k7mdeng/bpxrficyexampleKey Viết mã PythonVì vậy, bây giờ chúng tôi đã có các thùng của chúng tôi sẵn sàng trong S3 và chúng tôi cũng đã tạo ra các thông tin truy cập được yêu cầu để kết nối với môi trường AWS từ tệp Python. Bây giờ chúng ta hãy tiếp tục và bắt đầu viết mã của chúng tôi. Đầu tiên, chúng tôi cần nhập mô -đun BOTO3 sau đây vào mã của chúng tôi. Đây là SDK AWS cho Python do Amazon cung cấp. Nếu bạn chưa cài đặt cái này trên máy của mình, vui lòng cài đặt nó bằng Python Pip. Ngoài ra, chúng tôi cũng sẽ sử dụng mô -đun Python Pandas để chúng tôi có thể đọc dữ liệu từ S3 và lưu trữ chúng vào khung dữ liệu Pandas. Bạn có thể chạy các lệnh sau để cài đặt các mô -đun nếu chưa hoàn thành. PIP Cài đặt Boto3 Pip Cài đặt Pandas Lệnh này sẽ cài đặt mô -đun trên máy của bạn. Vì tôi đã cài đặt nó sớm hơn, nó sẽ hiển thị thông báo sau.
Hình 6 - Cài đặt SDK AWS cho Python - BOTO3 Bây giờ chúng ta hãy nhập mô -đun này vào mã Python của chúng tôi.
Khi mô -đun đã được nhập vào mã, bước tiếp theo là tạo máy khách S3 và tài nguyên cho phép chúng tôi truy cập các đối tượng được lưu trữ trong môi trường S3 của chúng tôi. Cả máy khách và tài nguyên đều có sẵn để kết nối với các đối tượng S3. Máy khách là giao diện chức năng cấp thấp, trong khi tài nguyên là giao diện hướng đối tượng cấp cao. Nếu bạn muốn làm việc với các tệp S3 đơn, bạn có thể chọn làm việc với máy khách. Tuy nhiên, nếu bạn cần làm việc với nhiều thùng S3 và cần lặp lại những thứ đó, thì việc sử dụng tài nguyên sẽ là lý tưởng. Hãy để chúng tôi đi trước và tạo ra cả hai. Ngoài ra, chúng ta cần chỉ định thông tin đăng nhập trong khi tạo các đối tượng. Bạn có thể sử dụng mã bên dưới để tạo máy khách và tài nguyên.
# Tạo giao diện hướng đối tượng cấp cao
& nbsp;
Đầu ra của mã trên như sau. Hình 7 - Tên xô in từ AWS S3
# Tạo giao diện hướng đối tượng cấp cao
Khi cả hai đối tượng được tạo, chúng ta hãy tiếp tục và cố gắng hiển thị một danh sách tất cả các thùng trong môi trường S3 của chúng ta. Sử dụng mã bên dưới để in danh sách tất cả các thùng. # Lấy danh sách các thùng hiện có
# In tên xô từng cái một
In ('Tên xô in ...') Forbucket InclientResponse ['Buckets']:& nbsp; Đầu ra của mã trên như sau.
Aveeek là một kỹ sư dữ liệu và phân tích có kinh nghiệm, hiện đang làm việc tại Dublin, Ireland. Các lĩnh vực chính được quan tâm kỹ thuật của anh ấy bao gồm SQL Server, SSIS/ETL, SSAS, Python, các công cụ dữ liệu lớn như Apache Spark, Kafka và Cloud Technologies như AWS/Amazon và Azure. Ông là một tác giả sung mãn, với hơn 100 bài báo được xuất bản trên nhiều blog kỹ thuật khác nhau, bao gồm blog của riêng ông và là người đóng góp thường xuyên cho các diễn đàn kỹ thuật khác nhau. Trong thời gian rảnh rỗi, anh thích nhiếp ảnh nghiệp dư chủ yếu là hình ảnh đường phố và cuộc sống tĩnh lặng. Một số cái nhìn thoáng qua về công việc của anh ấy có thể được tìm thấy trên Instagram. Bạn cũng có thể tìm thấy anh ấy trên LinkedIn Xem tất cả các bài viết của Aveeek Das Làm cách nào để trích xuất dữ liệu từ AWS S3?Trong bảng điều khiển Amazon S3, chọn Xô S3 của bạn, chọn tệp bạn muốn mở hoặc tải xuống, chọn hành động, sau đó chọn mở hoặc tải xuống.Nếu bạn đang tải xuống một đối tượng, chỉ định nơi bạn muốn lưu nó.Quy trình lưu đối tượng phụ thuộc vào trình duyệt và hệ điều hành mà bạn đang sử dụng.. If you are downloading an object, specify where you want to save it. The procedure for saving the object depends on the browser and operating system that you are using.
Làm thế nào để Python đọc các đối tượng từ S3?# Tạo đối tượng S3 .. obj = máy khách.get_object (. Xô = 'sql-server-shack-demo-1',. Key = 'SQL-Shack-demo.csv'. # Đọc dữ liệu từ đối tượng S3 .. Dữ liệu = gấu trúc.read_csv (obj ['cơ thể']). # In khung dữ liệu .. Bạn có thể truy vấn dữ liệu từ thùng S3 không?Với Amazon S3 CHỌN, bạn có thể sử dụng các câu lệnh Language Truy vấn có cấu trúc đơn giản (SQL) để lọc nội dung của đối tượng Amazon S3 và chỉ truy xuất tập hợp con của dữ liệu mà bạn cần.. |