Hướng dẫn mongodb magic quadrant - góc phần tư ma thuật mongodb
Nội phân chính Show
Người đánh giá hiểu biết và nhân khẩu họcTăng cường kho dữ liệu: Mở khóa phân tích thời gian thực Đưa phân tích thời gian thực vào hoạt động Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnh Để tất cả chúng cùng nhau Tăng cường kho dữ liệu: Mở khóa phân tích thời gian thựcĐưa phân tích thời gian thực vào hoạt động Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnh: Data Flow in Traditional Analytics ProcessesĐể tất cả chúng cùng nhau
Dữ liệu hoạt động từ nhiều hệ thống nguồn được tích hợp vào kho dữ liệu doanh nghiệp tập trung (EDW) và các quy trình dữ liệu cục bộ bằng cách sử dụng các quy trình tải Transform Transform (ETL). Báo cáo và trực quan hóa dữ liệu sau đó được tạo bởi các công cụ BI. Quy trình công việc này được xác định dựa trên một số giả định:Tần số có thể dự đoán được. Dữ liệu được trích xuất từ các hệ thống nguồn theo các khoảng thời gian đều đặn - thường được đo bằng ngày, tháng và quý.
MongoDB thêm kho dữ liệu bằng cách giải quyết các thách thức ở trên, cho phép người dùng chạy phân tích theo thời gian thực trực tiếp so với dữ liệu của họ:
Bản phát hành MongoDB 3.2 mới nhất được xây dựng dựa trên các khả năng này với các bộ tính năng nâng cao để tăng cường phân tích:
Đưa phân tích thời gian thực vào hoạt độngMột số tổ chức lớn nhất và sáng tạo nhất thế giới đang đưa các phân tích thời gian thực hoạt động, tạo ra hiệu quả hoạt động và xây dựng lợi thế cạnh tranh: Bosch sử dụng MongoDB ở trung tâm của bộ IoT của nó. Việc ăn dữ liệu từ xa thời gian thực từ hàng triệu phương tiện cho phép các nhà sản xuất tự động cung cấp lịch bảo trì dự đoán cho khách hàng của họ và cải thiện thiết kế sản phẩm. Thành phố Chicago sử dụng MongoDB để kết hợp hàng triệu điểm dữ liệu trên các bộ phận quan trọng nhất của mình, cung cấp phân tích dữ liệu thời gian thực cho các nhà quản lý thành phố để họ có thể dự đoán và phân bổ các nguồn lực nhanh hơn, đáp ứng nhanh chóng, điều chỉnh lưu lượng giao thông và phát hiện ra xu hướng sẽ nếu không là vô hình. Công ty truyền thông BuzzFeed sử dụng MongoDB để xác định chính xác khi nội dung được xem, nơi mà nó chia sẻ và cách thức mà nó được tiêu thụ bởi 400 triệu khách truy cập trang web hàng tháng của mình. Hệ thống cho phép nhân viên BuzzFeed phân tích, theo dõi và hiển thị các số liệu này cho các nhà văn và biên tập viên. Trang web của Otto, nhà bán lẻ trực tuyến lớn nhất Đức, tạo ra khoảng 10.000 sự kiện mỗi giây. Mỗi lần nhấp và di chuột của mỗi con chuột được lưu trữ trong MongoDB và phân tích dữ liệu thời gian thực được sử dụng để cung cấp trải nghiệm web độc đáo và được cá nhân hóa cho từng khách truy cập. Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnhTất nhiên, không chỉ các phân tích thời gian thực đang thúc đẩy sự đổi mới trong thế giới kho dữ liệu-Apache Hadoop đã nổi lên như một phần quan trọng của bối cảnh quản lý dữ liệu. Một số hadoop giả định sẽ thay thế kho dữ liệu doanh nghiệp, nhưng dự đoán đó là sai. Trên thực tế, Hadoop đang tăng cường kho dữ liệu, trong nhiều trường hợp, dữ liệu giảm tải và khối lượng công việc chuyển đổi dữ liệu cụ thể từ kho dữ liệu hiện có sang phần cứng hàng hóa ít tốn kém hơn trong môi trường mở rộng quy mô. Nhiều tổ chức đang khai thác Hadoop và MongoDB cùng nhau bằng cách sử dụng đầu nối MongoDB cho Hadoop, cung cấp khả năng sử dụng MongoDB làm nguồn đầu vào và đích đầu ra cho công việc MapReduce, Spark, Hive và Pig. Với sự kết hợp này, người dùng có thể tạo các nền tảng phân tích và quản lý dữ liệu hoàn chỉnh:
Ví dụ: eBay xử lý dữ liệu người dùng và quản lý siêu dữ liệu cho danh mục sản phẩm của mình trong MongoDB và Hadoop để phân tích người dùng để cung cấp các khuyến nghị và tìm kiếm được cá nhân hóa. Orbitz sử dụng MongoDB để quản lý dữ liệu và giá cả khách sạn, với phân khúc khách sạn Hadoop cung cấp năng lượng để hỗ trợ các khía cạnh tìm kiếm xây dựng. Pearson quản lý danh tính sinh viên và kiểm soát truy cập cùng với quản lý nội dung của các tài liệu khóa học trong MongoDB và Hadoop cho phân tích sinh viên để tạo ra các chương trình học tập thích ứng. Sự trỗi dậy của tia lửaKhông có cuộc thảo luận phân tích nào được hoàn thành mà không tham chiếu đến Apache Spark - nó đã trở thành một trong những dự án nền tảng phần mềm Apache phát triển nhanh nhất. Với kiến trúc định hướng bộ nhớ, các hệ thống xử lý linh hoạt và API dễ sử dụng, Apache Spark đã nổi lên như một khung hàng đầu cho phân tích thời gian thực, hỗ trợ phát trực tuyến, học máy, xử lý SQL và hơn thế nữa. Không giống như Hadoop phải di chuyển tất cả dữ liệu vào HDF, Spark có thể trực tiếp hoạt động chống lại dữ liệu được lưu trữ trong bất kỳ cơ sở dữ liệu, hệ thống tệp hoặc hàng đợi tin nhắn nào. Đầu nối MongoDB cho Hadoop cung cấp một trình cắm tia lửa, cho phép các công việc Spark sử dụng MongoDB làm cả nguồn và bồn rửa. Một loạt các kết nối phát triển cộng đồng cũng có sẵn để tích hợp MongoDB và Spark. Hình 2: Kiến trúc dữ liệu hiện đại hóa: MongoDB, Spark và Hadoop: Modernized data architecture: MongoDB, Spark, and HadoopNhiều tổ chức đã kết hợp MongoDB và Spark để xây dựng các ứng dụng giàu phân tích mới. Một công ty sản xuất toàn cầu đã xây dựng một dự án thí điểm để ước tính lợi nhuận bảo hành bằng cách phân tích các mẫu vật liệu từ các dây chuyền sản xuất. Dữ liệu được thu thập cho phép họ xây dựng các mô hình thất bại dự đoán bằng cách sử dụng Spark Machine Learning và MongoDB. Một trang web chia sẻ video đang sử dụng Spark với MongoDB để đặt các quảng cáo có liên quan trước người dùng khi họ duyệt, xem và chia sẻ video. Một nhóm ngân hàng đa quốc gia hoạt động tại 31 quốc gia với 51 triệu khách hàng đã thực hiện một ứng dụng giám sát thời gian thực thống nhất, chạy Apache Spark và MongoDB. Ngân hàng muốn đảm bảo chất lượng dịch vụ cao trên các kênh trực tuyến của mình và cần liên tục theo dõi hoạt động của khách hàng để kiểm tra thời gian phản hồi và xác định các vấn đề tiềm ẩn. Tất cả dữ liệu nhật ký được thu thập trong Apache Flume trước khi được duy trì đến MongoDB nơi các công việc Spark sau đó phân tích dữ liệu đó để cung cấp năng lượng cho trực quan hóa thời gian thực và cảnh báo về sức khỏe hệ thống. MongoDB đã được chọn do khả năng mở rộng cao, lược đồ động có thể ăn và quản lý nhanh chóng thay đổi dữ liệu nhật ký và một loạt các chỉ mục thứ cấp phong phú, cho phép công việc Spark được lọc hiệu quả và chỉ truy cập các lát dữ liệu cần thiết để điều khiển phân tích. Cách tiếp cận này dẫn đến độ trễ thấp hơn và thông lượng phân tích cao hơn. Để tất cả chúng cùng nhauNếu bất cứ ai từng nói với bạn thị trường kho dữ liệu chậm và nhàm chán, bị chi phối bởi chỉ một vài người bán hàng lớn, hãy nói với họ rằng họ đã sai. Với việc áp dụng các công nghệ hiện đại như MongoDB, Hadoop và Spark, các tổ chức đang tạo ra các lớp ứng dụng và phân tích mới mang lại lời hứa mở khóa hiệu quả mới, tạo ra các mô hình kinh doanh mới và các đối thủ cạnh tranh ngoài đường. Và với MongoDB phục vụ cả trường hợp sử dụng hoạt động và phân tích, bạn có thể xây dựng các ứng dụng đó nhanh hơn, với chi phí, độ phức tạp và rủi ro thấp hơn. Để tìm hiểu thêm về các phân tích thời gian thực với MongoDB, Spark và Hadoop, hãy đọc Sách trắng của chúng tôi. Biến phân tích thành hành động thời gian thựcReferences: Gartner Magic Quadrant cho các hệ thống quản lý cơ sở dữ liệu hoạt động, Donald Feinberg, Merv Adrian, Nick Heudecker, Adam M. Ronthal, Terilyn Palanca, và ngày 12 tháng 10 năm 2015. Gartner Magic Quadrant cho kho dữ liệu và giải pháp quản lý dữ liệu cho Analytics, Roxane Edjlali, Mark A. Beyer và ngày 25 tháng 2 năm 2016. Gartner không xác nhận bất kỳ nhà cung cấp, sản phẩm hoặc dịch vụ nào được mô tả trong các ấn phẩm nghiên cứu của mình và không khuyên người dùng công nghệ chỉ chọn những nhà cung cấp có xếp hạng cao nhất hoặc chỉ định khác. Các ấn phẩm nghiên cứu của Gartner bao gồm các ý kiến của tổ chức nghiên cứu của Gartner và không nên được hiểu là tuyên bố thực tế. Gartner từ chối tất cả các bảo đảm, được thể hiện hoặc ngụ ý, liên quan đến nghiên cứu này, bao gồm mọi bảo đảm về tính thương mại hoặc thể lực cho một mục đích cụ thể. |