Hướng dẫn mongodb magic quadrant - góc phần tư ma thuật mongodb

Nội phân chính

  • Người đánh giá hiểu biết và nhân khẩu học
  • Tăng cường kho dữ liệu: Mở khóa phân tích thời gian thực
  • Đưa phân tích thời gian thực vào hoạt động
  • Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnh
  • Để tất cả chúng cùng nhau

Người đánh giá hiểu biết và nhân khẩu học

Tăng cường kho dữ liệu: Mở khóa phân tích thời gian thực

Đưa phân tích thời gian thực vào hoạt động

Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnh

Để tất cả chúng cùng nhau

Tăng cường kho dữ liệu: Mở khóa phân tích thời gian thực

Đưa phân tích thời gian thực vào hoạt động

Hướng dẫn mongodb magic quadrant - góc phần tư ma thuật mongodb

Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnh: Data Flow in Traditional Analytics Processes

Để tất cả chúng cùng nhau

  1. Các đánh giá của Gartner Peer Insights tạo thành ý kiến ​​chủ quan của cá nhân người dùng cuối dựa trên kinh nghiệm của chính họ và không đại diện cho quan điểm của Gartner hoặc các chi nhánh của nó. Data is extracted from source systems at regular intervals – typically measured in days, months and quarters.

  2. Trang web này được bảo vệ bởi HCAPTCHA và chính sách bảo mật của HCAPTCHA và NBSP; Data is sourced from controlled, internal systems supporting established and well-defined back-office processes.

  3. Tại sao, bạn có thể hỏi, MongoDB có được mô tả trong một báo cáo nghiên cứu dành riêng để đánh giá các xu hướng chính và nhà cung cấp trong thị trường kho dữ liệu không? Rốt cuộc, MongoDB được thiết kế để phục vụ các trường hợp sử dụng hoạt động, bao gồm Internet of Things Ứng dụng, Quản lý dữ liệu khách hàng, Quản lý danh mục và Quản lý nội dung, Dịch vụ di động và nhiều hơn nữa. Trên thực tế, Gartner đã đặt MongoDB làm người dẫn đầu trong Magic Quadrant gần đây nhất cho các hệ thống quản lý cơ sở dữ liệu hoạt động để nhận ra tính đầy đủ của tầm nhìn và khả năng thực hiện chống lại các yêu cầu trong thị trường cơ sở dữ liệu hoạt động. Data structures are known and modeled in advance of analysis. This enables the development of a single schema to accommodate data from all of the source systems, but adds significant time to the upfront design.

  4. Mặc dù MongoDB không phải là kho dữ liệu, chúng tôi tin rằng sự bao gồm của nó trong DW/DMSA Magn Magic Magic mới nhất của Gartner [có sẵn miễn phí cho các khách hàng Gartner đủ điều kiện] phản ánh nhu cầu ngày càng tăng từ người dùng doanh nghiệp để tăng tốc độ sáng và biến phân tích thành thực sự hành động thời gian. Cho dù đó là phát hiện gian lận trong quá trình xử lý giao dịch, trình bày các khuyến nghị có liên quan cho người mua hàng khi họ duyệt một cửa hàng thương mại điện tử hoặc cảnh báo các nhà khai thác về sự thất bại sắp xảy ra của một thiết bị sản xuất quan trọng, tạo ra cái nhìn sâu sắc, có thể hành động được thực hiện bằng cách nhúng phân tích thời gian thực theo vào các quá trình hoạt động. Gartner gọi đây là Xử lý giao dịch/Phân tích lai (HTAP) xu hướng này, trong khi những người khác sử dụng thuật ngữ thuật ngữ. Chính khả năng cụ thể này, được nhấn mạnh bởi người dùng được khảo sát trong nghiên cứu của Gartner, đã đưa MongoDB, đưa vào góc phần tư ma thuật. Vị trí này không chỉ là vị trí đầu tiên cho MongoDB, nó còn là lần đầu tiên cho Gartner. Không có nguồn mở nào khác, cơ sở dữ liệu phi quan hệ đã từng được đưa vào phần tư DW/DMSA Magic. Questions to be asked of the data (i.e., the analytical queries) are pre-defined. If not all of the query requirements are known upfront, or requirements change, then the schema is modified to accommodate changes.

  5. Sử dụng các nền tảng kho dữ liệu truyền thống, luồng dữ liệu-bắt đầu bằng việc thu thập từ các hệ thống nguồn cho đến chuyển đổi, hợp nhất, phân tích và báo cáo-tuân theo một quy trình tuần tự được xác định rõ, như được minh họa trong Hình 1. Rigorous change control is enforced before the introduction of new data sources or reporting requirements.

  6. Hình 1: Lưu lượng dữ liệu trong các quy trình phân tích truyền thống The consumers of BI reports and analytics are typically business managers and senior executives.

Dữ liệu hoạt động từ nhiều hệ thống nguồn được tích hợp vào kho dữ liệu doanh nghiệp tập trung (EDW) và các quy trình dữ liệu cục bộ bằng cách sử dụng các quy trình tải Transform Transform (ETL). Báo cáo và trực quan hóa dữ liệu sau đó được tạo bởi các công cụ BI. Quy trình công việc này được xác định dựa trên một số giả định:

Tần số có thể dự đoán được. Dữ liệu được trích xuất từ ​​các hệ thống nguồn theo các khoảng thời gian đều đặn - thường được đo bằng ngày, tháng và quý.

  1. Nguồn tĩnh. Dữ liệu có nguồn gốc từ các hệ thống được kiểm soát, nội bộ hỗ trợ các quy trình văn phòng được thiết lập và được xác định rõ. The frequency of data acquisition, processing and analysis must increase from days to seconds or less. Source data needs to be analyzed as it is generated by operational applications in order to provide the speed-to-insight demanded by the business. Moving data through an ETL pipeline to the data warehouse will not work for real time use-cases.

  2. Mô hình cố định. Cấu trúc dữ liệu được biết đến và mô hình trước phân tích. Điều này cho phép phát triển một lược đồ duy nhất để chứa dữ liệu từ tất cả các hệ thống nguồn, nhưng thêm thời gian đáng kể cho thiết kế trả trước. Organizations need to harness data that is generated outside of their own firewalls – from location data, to web clicks, to sensors, to social media. The analytics team has no control over these data sources.

  3. Cấu trúc động. Phần lớn dữ liệu này đang thay đổi nhanh chóng với các định dạng đa hình, bán cấu trúc hoặc không có cấu trúc, không ánh xạ gọn gàng theo lược đồ cố định của cơ sở dữ liệu quan hệ truyền thống cung cấp năng lượng cho hầu hết các kho dữ liệu. Much of this data is rapidly changing with polymorphic, semi-structured or unstructured formats that do not map neatly to the fixed schema of traditional relational databases powering most data warehouses.

  4. Thay đổi mô hình truy vấn. Không thể dự đoán các loại câu hỏi sẽ được hỏi về dữ liệu. Tìm kiếm, tập hợp, phân tích không gian địa lý và học máy chỉ là một số công cụ hiện có sẵn cho các nhà phân tích khi họ khám phá các bộ dữ liệu mới và khám phá các xu hướng chưa được phát hiện trước đây. It is impossible to predict the types of questions that will be asked of the data. Search, aggregations, geospatial analytics, and machine learning are just some of the tools now available to analysts as they explore new data sets and discover previously undetected trends.

  5. Khối lượng lớn. Dữ liệu đến nhanh hơn và với số lượng áp đảo các công nghệ quản lý dữ liệu truyền thống. Nó có nghĩa là mở rộng cơ sở dữ liệu và phân tích trên phần cứng hàng hóa, thay vì cách tiếp cận quy mô điển hình của hầu hết các kho dữ liệu. Data arrives faster, and in quantities that overwhelm traditional data management technologies. It means scaling out databases and analytics across commodity hardware, rather than the scale-up approach typical of most data warehouses.

  6. Tiêu thụ rộng. Phân tích bây giờ mở rộng ra ngoài bộ quản lý. Thấy thông qua mọi bộ phận của tổ chức, các phân tích hiện cần phải có thể truy cập được cho nhân viên trên shopfloor và được tiêu thụ bởi các ứng dụng hoạt động để kiểm soát hành vi thời gian thực. Analytics now extends well beyond the management suite. Permeating through every part of the organization, analytics now need to be accessible to staff on the shopfloor, and consumed by operational applications to control real-time behavior.

MongoDB thêm kho dữ liệu bằng cách giải quyết các thách thức ở trên, cho phép người dùng chạy phân tích theo thời gian thực trực tiếp so với dữ liệu của họ:

  • Các cấu trúc dữ liệu phong phú với các thuộc tính phức tạp bao gồm văn bản, dữ liệu không gian địa lý, phương tiện, mảng, các phần tử nhúng và các loại phức tạp khác có thể dễ dàng được ánh xạ tới mô hình dữ liệu tài liệu dựa trên JSON của MongoDB.
  • Một lược đồ động có nghĩa là mỗi tài liệu (bản ghi) không cần phải có cùng một tập hợp các trường. Người dùng có thể điều chỉnh cấu trúc của các tài liệu chỉ bằng cách thêm các trường mới hoặc xóa các trường hiện có, làm cho nó rất đơn giản để mở rộng và phát triển các ứng dụng bằng cách thêm các thuộc tính mới để phân tích và báo cáo.
  • Một ngôn ngữ truy vấn biểu cảm và các chỉ mục thứ cấp cho phép truy cập dữ liệu nhanh và phong phú, cho phép các phân tích và tìm kiếm phức tạp được thực hiện tại chỗ, mà không phải chuyển dữ liệu sang cơ sở hạ tầng phân tích chuyên dụng.
  • Tự động bóng cho phép MongoDB phân vùng và phân phối các bộ dữ liệu lớn trên các cụm máy chủ hàng hóa trong trung tâm dữ liệu hoặc trên đám mây.

Bản phát hành MongoDB 3.2 mới nhất được xây dựng dựa trên các khả năng này với các bộ tính năng nâng cao để tăng cường phân tích:

  • Đầu nối MongoDB cho BI cho phép các nhà phân tích, nhà khoa học dữ liệu và người dùng doanh nghiệp khám phá và trực quan hóa dữ liệu đa cấu trúc được lưu trữ trong MongoDB với các nền tảng BI và phân tích BI và phân tích dựa trên SQL tiêu chuẩn của ngành như Tableau, đối tượng kinh doanh, v.v.
  • MongoDB Compass trình bày một GUI đơn giản, sử dụng đơn giản, cho phép bất kỳ người dùng nào trực quan hóa và khám phá dữ liệu với các truy vấn đặc biệt chỉ trong vài lần nhấp-tất cả đều có kiến ​​thức về ngôn ngữ truy vấn MongoDB.
  • Đối với quản trị dữ liệu, xác thực tài liệu cho phép bạn thực thi kiểm tra về cấu trúc tài liệu, kiểu dữ liệu, phạm vi dữ liệu và sự hiện diện của các trường bắt buộc.
  • Tra cứu động, toán tử toán mới và tìm kiếm nâng cao cho phép các phân tích phong phú hơn được chạy so với dữ liệu hoạt động trực tiếp, hoạt động

Đưa phân tích thời gian thực vào hoạt động

Một số tổ chức lớn nhất và sáng tạo nhất thế giới đang đưa các phân tích thời gian thực hoạt động, tạo ra hiệu quả hoạt động và xây dựng lợi thế cạnh tranh:

Bosch sử dụng MongoDB ở trung tâm của bộ IoT của nó. Việc ăn dữ liệu từ xa thời gian thực từ hàng triệu phương tiện cho phép các nhà sản xuất tự động cung cấp lịch bảo trì dự đoán cho khách hàng của họ và cải thiện thiết kế sản phẩm.

Thành phố Chicago sử dụng MongoDB để kết hợp hàng triệu điểm dữ liệu trên các bộ phận quan trọng nhất của mình, cung cấp phân tích dữ liệu thời gian thực cho các nhà quản lý thành phố để họ có thể dự đoán và phân bổ các nguồn lực nhanh hơn, đáp ứng nhanh chóng, điều chỉnh lưu lượng giao thông và phát hiện ra xu hướng sẽ nếu không là vô hình.

Công ty truyền thông BuzzFeed sử dụng MongoDB để xác định chính xác khi nội dung được xem, nơi mà nó chia sẻ và cách thức mà nó được tiêu thụ bởi 400 triệu khách truy cập trang web hàng tháng của mình. Hệ thống cho phép nhân viên BuzzFeed phân tích, theo dõi và hiển thị các số liệu này cho các nhà văn và biên tập viên.

Trang web của Otto, nhà bán lẻ trực tuyến lớn nhất Đức, tạo ra khoảng 10.000 sự kiện mỗi giây. Mỗi lần nhấp và di chuột của mỗi con chuột được lưu trữ trong MongoDB và phân tích dữ liệu thời gian thực được sử dụng để cung cấp trải nghiệm web độc đáo và được cá nhân hóa cho từng khách truy cập.

Hadoop và Spark: Xây dựng nền tảng phân tích dữ liệu hoàn chỉnh

Tất nhiên, không chỉ các phân tích thời gian thực đang thúc đẩy sự đổi mới trong thế giới kho dữ liệu-Apache Hadoop đã nổi lên như một phần quan trọng của bối cảnh quản lý dữ liệu. Một số hadoop giả định sẽ thay thế kho dữ liệu doanh nghiệp, nhưng dự đoán đó là sai. Trên thực tế, Hadoop đang tăng cường kho dữ liệu, trong nhiều trường hợp, dữ liệu giảm tải và khối lượng công việc chuyển đổi dữ liệu cụ thể từ kho dữ liệu hiện có sang phần cứng hàng hóa ít tốn kém hơn trong môi trường mở rộng quy mô.

Nhiều tổ chức đang khai thác Hadoop và MongoDB cùng nhau bằng cách sử dụng đầu nối MongoDB cho Hadoop, cung cấp khả năng sử dụng MongoDB làm nguồn đầu vào và đích đầu ra cho công việc MapReduce, Spark, Hive và Pig. Với sự kết hợp này, người dùng có thể tạo các nền tảng phân tích và quản lý dữ liệu hoàn chỉnh:

  • MongoDB cung cấp năng lượng cho ứng dụng hoạt động trực tuyến, thời gian thực, phục vụ các quy trình kinh doanh và người dùng cuối
  • Hadoop tiêu thụ dữ liệu từ MongoDB, pha trộn dữ liệu của nó từ các hệ thống hoạt động khác để cung cấp nhiên liệu phân tích tinh vi và học máy. Kết quả được tải trở lại MongoDB để phục vụ các quy trình hoạt động thông minh hơn.

Ví dụ: eBay xử lý dữ liệu người dùng và quản lý siêu dữ liệu cho danh mục sản phẩm của mình trong MongoDB và Hadoop để phân tích người dùng để cung cấp các khuyến nghị và tìm kiếm được cá nhân hóa. Orbitz sử dụng MongoDB để quản lý dữ liệu và giá cả khách sạn, với phân khúc khách sạn Hadoop cung cấp năng lượng để hỗ trợ các khía cạnh tìm kiếm xây dựng. Pearson quản lý danh tính sinh viên và kiểm soát truy cập cùng với quản lý nội dung của các tài liệu khóa học trong MongoDB và Hadoop cho phân tích sinh viên để tạo ra các chương trình học tập thích ứng.

Sự trỗi dậy của tia lửa

Không có cuộc thảo luận phân tích nào được hoàn thành mà không tham chiếu đến Apache Spark - nó đã trở thành một trong những dự án nền tảng phần mềm Apache phát triển nhanh nhất. Với kiến ​​trúc định hướng bộ nhớ, các hệ thống xử lý linh hoạt và API dễ sử dụng, Apache Spark đã nổi lên như một khung hàng đầu cho phân tích thời gian thực, hỗ trợ phát trực tuyến, học máy, xử lý SQL và hơn thế nữa.

Không giống như Hadoop phải di chuyển tất cả dữ liệu vào HDF, Spark có thể trực tiếp hoạt động chống lại dữ liệu được lưu trữ trong bất kỳ cơ sở dữ liệu, hệ thống tệp hoặc hàng đợi tin nhắn nào. Đầu nối MongoDB cho Hadoop cung cấp một trình cắm tia lửa, cho phép các công việc Spark sử dụng MongoDB làm cả nguồn và bồn rửa. Một loạt các kết nối phát triển cộng đồng cũng có sẵn để tích hợp MongoDB và Spark.

Hình 2: Kiến trúc dữ liệu hiện đại hóa: MongoDB, Spark và Hadoop: Modernized data architecture: MongoDB, Spark, and Hadoop

Nhiều tổ chức đã kết hợp MongoDB và Spark để xây dựng các ứng dụng giàu phân tích mới. Một công ty sản xuất toàn cầu đã xây dựng một dự án thí điểm để ước tính lợi nhuận bảo hành bằng cách phân tích các mẫu vật liệu từ các dây chuyền sản xuất. Dữ liệu được thu thập cho phép họ xây dựng các mô hình thất bại dự đoán bằng cách sử dụng Spark Machine Learning và MongoDB. Một trang web chia sẻ video đang sử dụng Spark với MongoDB để đặt các quảng cáo có liên quan trước người dùng khi họ duyệt, xem và chia sẻ video.

Một nhóm ngân hàng đa quốc gia hoạt động tại 31 quốc gia với 51 triệu khách hàng đã thực hiện một ứng dụng giám sát thời gian thực thống nhất, chạy Apache Spark và MongoDB. Ngân hàng muốn đảm bảo chất lượng dịch vụ cao trên các kênh trực tuyến của mình và cần liên tục theo dõi hoạt động của khách hàng để kiểm tra thời gian phản hồi và xác định các vấn đề tiềm ẩn. Tất cả dữ liệu nhật ký được thu thập trong Apache Flume trước khi được duy trì đến MongoDB nơi các công việc Spark sau đó phân tích dữ liệu đó để cung cấp năng lượng cho trực quan hóa thời gian thực và cảnh báo về sức khỏe hệ thống.

MongoDB đã được chọn do khả năng mở rộng cao, lược đồ động có thể ăn và quản lý nhanh chóng thay đổi dữ liệu nhật ký và một loạt các chỉ mục thứ cấp phong phú, cho phép công việc Spark được lọc hiệu quả và chỉ truy cập các lát dữ liệu cần thiết để điều khiển phân tích. Cách tiếp cận này dẫn đến độ trễ thấp hơn và thông lượng phân tích cao hơn.

Để tất cả chúng cùng nhau

Nếu bất cứ ai từng nói với bạn thị trường kho dữ liệu chậm và nhàm chán, bị chi phối bởi chỉ một vài người bán hàng lớn, hãy nói với họ rằng họ đã sai. Với việc áp dụng các công nghệ hiện đại như MongoDB, Hadoop và Spark, các tổ chức đang tạo ra các lớp ứng dụng và phân tích mới mang lại lời hứa mở khóa hiệu quả mới, tạo ra các mô hình kinh doanh mới và các đối thủ cạnh tranh ngoài đường. Và với MongoDB phục vụ cả trường hợp sử dụng hoạt động và phân tích, bạn có thể xây dựng các ứng dụng đó nhanh hơn, với chi phí, độ phức tạp và rủi ro thấp hơn.


Để tìm hiểu thêm về các phân tích thời gian thực với MongoDB, Spark và Hadoop, hãy đọc Sách trắng của chúng tôi.

Biến phân tích thành hành động thời gian thực

References:

Gartner Magic Quadrant cho các hệ thống quản lý cơ sở dữ liệu hoạt động, Donald Feinberg, Merv Adrian, Nick Heudecker, Adam M. Ronthal, Terilyn Palanca, và ngày 12 tháng 10 năm 2015.

Gartner Magic Quadrant cho kho dữ liệu và giải pháp quản lý dữ liệu cho Analytics, Roxane Edjlali, Mark A. Beyer và ngày 25 tháng 2 năm 2016.

Gartner không xác nhận bất kỳ nhà cung cấp, sản phẩm hoặc dịch vụ nào được mô tả trong các ấn phẩm nghiên cứu của mình và không khuyên người dùng công nghệ chỉ chọn những nhà cung cấp có xếp hạng cao nhất hoặc chỉ định khác. Các ấn phẩm nghiên cứu của Gartner bao gồm các ý kiến ​​của tổ chức nghiên cứu của Gartner và không nên được hiểu là tuyên bố thực tế. Gartner từ chối tất cả các bảo đảm, được thể hiện hoặc ngụ ý, liên quan đến nghiên cứu này, bao gồm mọi bảo đảm về tính thương mại hoặc thể lực cho một mục đích cụ thể.