Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

Quá trình thu thập và phân tích dữ liệu chính xác từ nhiều nguồn khác nhau để tìm câu trả lời cho vấn đề nghiên cứu, xu hướng và xác suất, v.v. , để đánh giá các kết quả có thể được gọi là Thu thập dữ liệu. Tiếp tục cuộn để biết thêm

Show

Tri thức là sức mạnh, thông tin là tri thức và dữ liệu là thông tin ở dạng số hóa, ít nhất là theo định nghĩa trong CNTT. Do đó, dữ liệu là sức mạnh. Nhưng trước khi bạn có thể tận dụng dữ liệu đó vào một chiến lược thành công cho tổ chức hoặc doanh nghiệp của mình, bạn cần thu thập dữ liệu đó. Đó là bước đầu tiên của bạn

Vì vậy, để giúp bạn bắt đầu quá trình, chúng tôi tập trung vào việc thu thập dữ liệu. Chính xác nó là gì? . Hơn nữa, các loại thu thập dữ liệu khác nhau là gì?

Nếu bạn muốn bắt kịp tốc độ về quy trình thu thập dữ liệu là gì, bạn đã đến đúng nơi.  

Bắt đầu sự nghiệp của bạn với tư cách là một nhà khoa học dữ liệu

Chương trình thạc sĩ khoa học dữ liệu Chương trình khám phá

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

Thu thập dữ liệu là gì. Một định nghĩa

Trước khi chúng tôi xác định thu thập dữ liệu là gì, điều cần thiết là đặt câu hỏi, "Dữ liệu là gì?" . Do đó, thu thập dữ liệu là quá trình thu thập, đo lường và phân tích dữ liệu chính xác từ nhiều nguồn khác nhau có liên quan để tìm câu trả lời cho vấn đề nghiên cứu, trả lời câu hỏi, đánh giá kết quả và dự báo xu hướng và xác suất

Xã hội của chúng ta phụ thuộc nhiều vào dữ liệu, điều này nhấn mạnh tầm quan trọng của việc thu thập dữ liệu. Việc thu thập dữ liệu chính xác là cần thiết để đưa ra quyết định kinh doanh sáng suốt, đảm bảo chất lượng và duy trì tính toàn vẹn của nghiên cứu

Trong quá trình thu thập dữ liệu, các nhà nghiên cứu phải xác định các loại dữ liệu, nguồn dữ liệu và phương pháp nào đang được sử dụng. Chúng ta sẽ sớm thấy rằng có nhiều phương pháp thu thập dữ liệu khác nhau. Có sự phụ thuộc nặng nề vào việc thu thập dữ liệu trong các lĩnh vực nghiên cứu, thương mại và chính phủ

Trước khi một nhà phân tích bắt đầu thu thập dữ liệu, trước tiên họ phải trả lời ba câu hỏi

  • Mục tiêu hoặc mục đích của nghiên cứu này là gì?
  • Những loại dữ liệu nào họ dự định thu thập?
  • Những phương pháp và quy trình nào sẽ được sử dụng để thu thập, lưu trữ và xử lý thông tin?

Ngoài ra, chúng ta có thể chia dữ liệu thành các loại định tính và định lượng. Dữ liệu định tính bao gồm các mô tả như màu sắc, kích thước, chất lượng và hình thức. Dữ liệu định lượng, không ngạc nhiên, liên quan đến các con số, chẳng hạn như số liệu thống kê, số thăm dò ý kiến, tỷ lệ phần trăm, v.v.

Tại sao chúng ta cần thu thập dữ liệu?

Trước khi một thẩm phán đưa ra phán quyết trong một phiên tòa hoặc một vị tướng lập kế hoạch tấn công, họ phải có càng nhiều dữ kiện liên quan càng tốt. Các hướng hành động tốt nhất đến từ các quyết định sáng suốt và thông tin và dữ liệu đồng nghĩa với nhau

Khái niệm thu thập dữ liệu không phải là khái niệm mới, như chúng ta sẽ thấy sau, nhưng thế giới đã thay đổi. Ngày nay có nhiều dữ liệu hơn và nó tồn tại ở dạng chưa từng có trong một thế kỷ trước. Quá trình thu thập dữ liệu đã phải thay đổi và phát triển theo thời gian, bắt kịp với công nghệ

Cho dù bạn đang làm việc trong giới học thuật, đang cố gắng tiến hành nghiên cứu hay là một phần của lĩnh vực thương mại, đang nghĩ cách quảng cáo một sản phẩm mới, bạn đều cần thu thập dữ liệu để giúp bạn đưa ra lựa chọn tốt hơn

Bây giờ bạn đã biết thu thập dữ liệu là gì và tại sao chúng ta cần nó, hãy xem các phương pháp thu thập dữ liệu khác nhau. Mặc dù cụm từ “thu thập dữ liệu” nghe có vẻ toàn là công nghệ cao và kỹ thuật số, nhưng nó không nhất thiết đòi hỏi những thứ như máy tính, dữ liệu lớn và internet. Thu thập dữ liệu có thể có nghĩa là một cuộc khảo sát qua điện thoại, một thẻ nhận xét gửi qua thư hoặc thậm chí một số người có bảng tạm hỏi người qua đường một số câu hỏi. Nhưng hãy xem liệu chúng ta có thể sắp xếp các phương pháp thu thập dữ liệu khác nhau thành các danh mục có tổ chức không

Các phương pháp thu thập dữ liệu khác nhau là gì?

Sau đây là bảy phương pháp thu thập dữ liệu chính trong phân tích kinh doanh

  • khảo sát

  • Theo dõi giao dịch

  • Phỏng vấn và nhóm tập trung

  • Quan sát

  • Dò tìm trực tuyến

  • Các hình thức

  • Giám sát phương tiện truyền thông xã hội

Thu thập dữ liệu chia thành hai phương pháp. Lưu ý thêm, nhiều thuật ngữ, chẳng hạn như kỹ thuật, phương pháp và loại, có thể hoán đổi cho nhau và tùy thuộc vào người sử dụng chúng. Ví dụ, một nguồn có thể gọi các kỹ thuật thu thập dữ liệu là “phương pháp”. Nhưng bất kể chúng ta sử dụng nhãn nào, các khái niệm chung và sự cố được áp dụng trên bảng cho dù chúng ta đang nói về phân tích tiếp thị hay một dự án nghiên cứu khoa học

Hai phương pháp là

  • Sơ đẳng

Đúng như tên gọi, đây là dữ liệu gốc, trực tiếp do các nhà nghiên cứu dữ liệu thu thập. Quá trình này là bước thu thập thông tin ban đầu, được thực hiện trước khi bất kỳ ai thực hiện bất kỳ nghiên cứu nào khác hoặc liên quan. Kết quả dữ liệu sơ cấp có độ chính xác cao với điều kiện người nghiên cứu thu thập thông tin. Tuy nhiên, có một nhược điểm là nghiên cứu trực tiếp có khả năng tốn thời gian và tốn kém.

  • Sơ trung

Dữ liệu thứ cấp là dữ liệu cũ được thu thập bởi các bên khác và đã trải qua quá trình phân tích thống kê. Dữ liệu này là thông tin mà nhà nghiên cứu đã giao nhiệm vụ cho người khác thu thập hoặc thông tin mà nhà nghiên cứu đã tra cứu. Nói một cách đơn giản, đó là thông tin cũ. Mặc dù dễ dàng hơn và rẻ hơn để có được thông tin chính, nhưng thông tin thứ cấp làm tăng mối lo ngại về tính chính xác và tính xác thực. Dữ liệu định lượng chiếm phần lớn dữ liệu thứ cấp

Kỹ thuật thu thập dữ liệu cụ thể

Hãy đi vào chi tiết cụ thể. Sử dụng các phương pháp chính/phụ được đề cập ở trên, đây là bảng phân tích các kỹ thuật cụ thể

Thu thập dữ liệu sơ cấp

  • phỏng vấn

Nhà nghiên cứu đặt câu hỏi về một mẫu lớn người, bằng cách phỏng vấn trực tiếp hoặc bằng phương tiện liên lạc đại chúng như qua điện thoại hoặc thư. Phương pháp này cho đến nay là phương pháp thu thập dữ liệu phổ biến nhất

  • Projective thu thập dữ liệu

Thu thập dữ liệu phóng chiếu là một cuộc phỏng vấn gián tiếp, được sử dụng khi những người trả lời tiềm năng biết lý do tại sao họ được đặt câu hỏi và ngần ngại trả lời. Chẳng hạn, ai đó có thể miễn cưỡng trả lời các câu hỏi về dịch vụ điện thoại của họ nếu đại diện của nhà cung cấp dịch vụ điện thoại di động đặt câu hỏi. Với phương pháp thu thập dữ liệu phóng ảnh, người được phỏng vấn nhận được một câu hỏi chưa hoàn chỉnh và họ phải điền vào phần còn lại, sử dụng ý kiến, cảm xúc và thái độ của họ

  • Kỹ thuật Delphi

Oracle ở Delphi, theo thần thoại Hy Lạp, là nữ tư tế cao cấp của đền thờ Apollo, người đã đưa ra lời khuyên, lời tiên tri và lời khuyên. Trong lĩnh vực thu thập dữ liệu, các nhà nghiên cứu sử dụng kỹ thuật Delphi bằng cách thu thập thông tin từ một nhóm chuyên gia. Mỗi chuyên gia trả lời các câu hỏi trong lĩnh vực chuyên môn của họ và các câu trả lời được tổng hợp thành một ý kiến ​​duy nhất

  • Nhóm tiêu điểm

Các nhóm tập trung, giống như các cuộc phỏng vấn, là một kỹ thuật thường được sử dụng. Nhóm bao gồm từ nửa tá đến chục người, do người điều hành dẫn đầu, tập hợp lại để thảo luận về vấn đề

  • bảng câu hỏi

Bảng câu hỏi là một phương pháp thu thập dữ liệu đơn giản, dễ hiểu. Người trả lời nhận được một loạt câu hỏi, mở hoặc đóng, liên quan đến vấn đề hiện tại

Thu thập dữ liệu thứ cấp

Không giống như thu thập dữ liệu sơ cấp, không có phương pháp thu thập cụ thể. Thay vào đó, vì thông tin đã được thu thập, nhà nghiên cứu tham khảo nhiều nguồn dữ liệu khác nhau, chẳng hạn như

  • Báo cáo tài chính
  • Báo cáo bán hàng
  • Nhà bán lẻ/Nhà phân phối/Phản hồi giao dịch
  • Thông tin cá nhân của khách hàng (e. g. , tên, địa chỉ, tuổi, thông tin liên lạc)
  • tạp chí kinh doanh
  • Hồ sơ Chính phủ (e. g. , điều tra dân số, hồ sơ thuế, thông tin An sinh xã hội)
  • Tạp chí Thương mại/Kinh doanh
  • mạng internet

Nhà khoa học dữ liệu hay Kỹ sư dữ liệu?

Chương trình thạc sĩ khoa học dữ liệu Chương trình khám phá

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

Công cụ thu thập dữ liệu

Bây giờ chúng tôi đã giải thích các kỹ thuật khác nhau, hãy thu hẹp trọng tâm của chúng tôi hơn nữa bằng cách xem xét một số công cụ cụ thể. Ví dụ: chúng tôi đã đề cập đến các cuộc phỏng vấn như một kỹ thuật, nhưng chúng tôi có thể chia nhỏ hơn nữa thành các loại phỏng vấn khác nhau (hoặc “công cụ”)

  • Hiệp hội từ

Nhà nghiên cứu đưa cho người trả lời một tập hợp các từ và hỏi họ nghĩ gì khi nghe từng từ đó

  • Hoàn thành câu

Các nhà nghiên cứu sử dụng phần hoàn thành câu để hiểu loại ý tưởng mà người trả lời có. Công cụ này liên quan đến việc đưa ra một câu chưa hoàn chỉnh và xem người được phỏng vấn hoàn thành nó như thế nào

  • nhập vai

Những người được hỏi được đưa ra một tình huống tưởng tượng và được hỏi họ sẽ hành động hoặc phản ứng như thế nào nếu đó là sự thật

  • Khảo sát trực tiếp

Nhà nghiên cứu đặt câu hỏi trực tiếp

  • Khảo sát trực tuyến/Web

Những khảo sát này rất dễ thực hiện, nhưng một số người dùng có thể không muốn trả lời trung thực, nếu có

  • Khảo sát di động

Những khảo sát này tận dụng lợi thế của sự phổ biến ngày càng tăng của công nghệ di động. Khảo sát bộ sưu tập trên thiết bị di động dựa vào các thiết bị di động như máy tính bảng hoặc điện thoại thông minh để thực hiện khảo sát qua SMS hoặc ứng dụng dành cho thiết bị di động

  • Khảo sát qua điện thoại

Không nhà nghiên cứu nào có thể gọi hàng nghìn người cùng lúc, vì vậy họ cần một bên thứ ba để giải quyết công việc. Tuy nhiên, nhiều người đã sàng lọc cuộc gọi và không trả lời

  • Quan sát

Đôi khi, phương pháp đơn giản nhất là tốt nhất. Các nhà nghiên cứu thực hiện các quan sát trực tiếp sẽ thu thập dữ liệu một cách nhanh chóng và dễ dàng, ít có sự xâm nhập hoặc thiên vị của bên thứ ba. Đương nhiên, nó chỉ hiệu quả trong các tình huống quy mô nhỏ

Tầm quan trọng của việc đảm bảo thu thập dữ liệu chính xác và phù hợp

Thu thập dữ liệu chính xác là rất quan trọng để duy trì tính toàn vẹn của nghiên cứu, bất kể đối tượng nghiên cứu hay phương pháp ưa thích để xác định dữ liệu (định lượng, định tính). Ít có khả năng xảy ra lỗi hơn khi sử dụng các công cụ thu thập dữ liệu phù hợp (dù là công cụ hoàn toàn mới, phiên bản cập nhật của chúng hay đã có sẵn)

Trong số các tác động của việc thu thập dữ liệu được thực hiện không chính xác, bao gồm những điều sau -

  • Kết luận sai lầm gây lãng phí tài nguyên
  • Các quyết định làm tổn hại đến chính sách công
  • Không có khả năng trả lời chính xác các câu hỏi nghiên cứu
  • Gây hại cho những người tham gia là người hoặc động vật
  • Lừa dối các nhà nghiên cứu khác theo đuổi con đường nghiên cứu vô ích
  • Nghiên cứu không có khả năng được nhân rộng và xác nhận

Khi những kết quả nghiên cứu này được sử dụng để hỗ trợ các khuyến nghị cho chính sách công, có khả năng dẫn đến tác hại không tương xứng, ngay cả khi mức độ ảnh hưởng từ việc thu thập dữ liệu sai sót có thể khác nhau tùy theo lĩnh vực và loại hình điều tra

Bây giờ chúng ta hãy xem xét các vấn đề khác nhau mà chúng ta có thể gặp phải trong khi duy trì tính toàn vẹn của việc thu thập dữ liệu

Các vấn đề liên quan đến việc duy trì tính toàn vẹn của việc thu thập dữ liệu

Để hỗ trợ quá trình phát hiện lỗi trong quá trình thu thập dữ liệu, cho dù chúng được thực hiện có chủ đích (cố ý làm sai lệch) hay không, thì việc duy trì tính toàn vẹn của dữ liệu là lý do chính (lỗi hệ thống hoặc ngẫu nhiên)

Đảm bảo chất lượng và kiểm soát chất lượng là hai chiến lược giúp bảo vệ tính toàn vẹn của dữ liệu và đảm bảo giá trị khoa học của kết quả nghiên cứu

Mỗi chiến lược được sử dụng ở các giai đoạn khác nhau của dòng thời gian nghiên cứu

  • Kiểm soát chất lượng - các nhiệm vụ được thực hiện cả sau và trong quá trình thu thập dữ liệu
  • Đảm bảo chất lượng - các sự kiện xảy ra trước khi bắt đầu thu thập dữ liệu

Bây giờ chúng ta hãy khám phá từng người trong số họ chi tiết hơn

Đảm bảo chất lượng

Vì việc thu thập dữ liệu đi trước đảm bảo chất lượng nên mục tiêu chính của nó là "phòng ngừa" (i. e. , ngăn chặn các vấn đề với việc thu thập dữ liệu). Cách tốt nhất để bảo vệ tính chính xác của việc thu thập dữ liệu là thông qua phòng ngừa. Tính đồng nhất của giao thức được tạo ra trong hướng dẫn quy trình kỹ lưỡng và đầy đủ để thu thập dữ liệu là ví dụ tốt nhất cho bước chủ động này.  

Khả năng không phát hiện sớm các vấn đề và sai lầm trong nỗ lực nghiên cứu tăng lên khi hướng dẫn được viết kém. Có một số cách để chỉ ra những thiếu sót này

  • Không xác định chính xác đối tượng và phương pháp đào tạo lại hoặc đào tạo nhân viên thu thập dữ liệu
  • Danh mục hàng hóa được thu thập, một phần
  • Không có hệ thống để theo dõi các sửa đổi đối với các quy trình có thể xảy ra khi cuộc điều tra tiếp tục
  • Thay vì hướng dẫn chi tiết, từng bước về cách thực hiện các bài kiểm tra, có một mô tả mơ hồ về các công cụ thu thập dữ liệu sẽ được sử dụng
  • Sự không chắc chắn về ngày, thủ tục và danh tính của người hoặc những người chịu trách nhiệm kiểm tra dữ liệu
  • Hướng dẫn sử dụng, điều chỉnh và hiệu chỉnh thiết bị thu thập dữ liệu khó hiểu

Bây giờ, chúng ta hãy xem làm thế nào để đảm bảo Kiểm soát chất lượng

khóa học miễn phí. Giới thiệu về Khoa học dữ liệu

Tìm hiểu kiến ​​thức cơ bản về khoa học dữ liệu Đăng ký ngay

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

Kiểm soát chất lượng

Mặc dù thực tế là các hành động kiểm soát chất lượng (phát hiện/giám sát và can thiệp) diễn ra cả sau và trong quá trình thu thập dữ liệu, nhưng các chi tiết cụ thể cần được nêu chi tiết tỉ mỉ trong sổ tay quy trình. Việc thiết lập các hệ thống giám sát cần có cấu trúc truyền thông cụ thể, đây là điều kiện tiên quyết. Sau khi phát hiện ra các vấn đề về thu thập dữ liệu, không nên có sự mơ hồ về luồng thông tin giữa các điều tra viên chính và nhân viên. Hệ thống thông tin liên lạc được thiết kế kém dẫn đến giám sát lỏng lẻo và giảm cơ hội phát hiện lỗi

Các cuộc gọi hội nghị quan sát trực tiếp nhân viên, trong các chuyến thăm địa điểm hoặc đánh giá thường xuyên hoặc định kỳ các báo cáo dữ liệu để phát hiện sự khác biệt, số lượng quá mức hoặc mã không hợp lệ đều có thể được sử dụng làm hình thức phát hiện hoặc giám sát. Các lượt truy cập trang web có thể không phù hợp với tất cả các ngành. Tuy nhiên, nếu không kiểm tra hồ sơ định kỳ, dù là định tính hay định lượng, các điều tra viên sẽ gặp khó khăn trong việc xác nhận rằng việc thu thập dữ liệu đang diễn ra theo các phương pháp đã xác định trong sách hướng dẫn

Ngoài ra, kiểm soát chất lượng sẽ xác định các giải pháp hoặc "hành động" phù hợp để khắc phục các quy trình thu thập dữ liệu bị lỗi và giảm thiểu sự tái diễn

Ví dụ, các vấn đề về thu thập dữ liệu cần hành động ngay lập tức bao gồm

  • Gian lận hoặc hành vi sai trái
  • Sai phạm có hệ thống, vi phạm thủ tục
  • Các mục dữ liệu riêng lẻ có lỗi
  • Các vấn đề với một số nhân viên hoặc hiệu suất của một trang web

Các nhà nghiên cứu được đào tạo để bao gồm một hoặc nhiều biện pháp thứ cấp có thể được sử dụng để xác minh chất lượng thông tin thu được từ đối tượng con người trong khoa học xã hội và hành vi nơi thu thập dữ liệu sơ cấp đòi hỏi phải sử dụng đối tượng con người.  

Chẳng hạn, một nhà nghiên cứu thực hiện một cuộc khảo sát sẽ quan tâm đến việc tìm hiểu thêm về mức độ phổ biến của các hành vi nguy hiểm ở thanh niên cũng như các yếu tố xã hội ảnh hưởng đến xu hướng và tần suất của những hành vi nguy hiểm này.

Bây giờ chúng ta hãy khám phá những thách thức phổ biến liên quan đến việc thu thập dữ liệu

Những thách thức phổ biến trong việc thu thập dữ liệu là gì?

Có một số thách thức phổ biến phải đối mặt trong khi thu thập dữ liệu, chúng ta hãy khám phá một vài trong số chúng để hiểu rõ hơn và tránh chúng

Vấn đề về chất lượng dữ liệu

Mối đe dọa chính đối với ứng dụng học máy rộng rãi và thành công là chất lượng dữ liệu kém. Chất lượng dữ liệu phải là ưu tiên hàng đầu của bạn nếu bạn muốn các công nghệ như máy học hoạt động cho mình. Hãy nói về một số vấn đề về chất lượng dữ liệu phổ biến nhất trong bài viết trên blog này và cách khắc phục chúng

Dữ liệu không nhất quán

Khi làm việc với nhiều nguồn dữ liệu khác nhau, có thể hình dung rằng cùng một thông tin sẽ có sự khác biệt giữa các nguồn. Sự khác biệt có thể ở định dạng, đơn vị hoặc đôi khi là cách viết. Việc đưa ra dữ liệu không nhất quán cũng có thể xảy ra trong quá trình sáp nhập hoặc di dời công ty. Sự không nhất quán trong dữ liệu có xu hướng tích lũy và làm giảm giá trị của dữ liệu nếu chúng không được giải quyết liên tục. Các tổ chức tập trung nhiều vào tính nhất quán của dữ liệu làm như vậy vì họ chỉ muốn dữ liệu đáng tin cậy để hỗ trợ phân tích của họ

Thời gian ngừng dữ liệu

Dữ liệu là động lực đằng sau các quyết định và hoạt động của các doanh nghiệp dựa trên dữ liệu. Tuy nhiên, có thể có những khoảng thời gian ngắn khi dữ liệu của họ không đáng tin cậy hoặc không được chuẩn bị. Khiếu nại của khách hàng và kết quả phân tích dưới trung bình chỉ là hai cách mà việc không có sẵn dữ liệu này có thể có tác động đáng kể đến doanh nghiệp. Một kỹ sư dữ liệu dành khoảng 80% thời gian để cập nhật, duy trì và đảm bảo tính toàn vẹn của đường dẫn dữ liệu. Để đặt câu hỏi kinh doanh tiếp theo, có một chi phí cận biên cao do thời gian hoạt động kéo dài từ khi thu thập dữ liệu đến thông tin chi tiết

Sửa đổi lược đồ và các vấn đề di chuyển chỉ là hai ví dụ về nguyên nhân gây ra thời gian ngừng hoạt động của dữ liệu. Đường ống dẫn dữ liệu có thể gặp khó khăn do kích thước và độ phức tạp của chúng. Thời gian ngừng hoạt động của dữ liệu phải được theo dõi liên tục và phải được giảm thiểu thông qua tự động hóa

Dữ liệu mơ hồ

Ngay cả khi được giám sát kỹ lưỡng, một số lỗi vẫn có thể xảy ra trong cơ sở dữ liệu lớn hoặc kho dữ liệu. Đối với truyền dữ liệu với tốc độ nhanh, vấn đề trở nên quá sức. Lỗi chính tả có thể không được chú ý, khó định dạng có thể xảy ra và tiêu đề cột có thể gây nhầm lẫn. Dữ liệu không rõ ràng này có thể gây ra một số vấn đề cho báo cáo và phân tích

Trở thành nhà khoa học dữ liệu với trải nghiệm thực tế

Chương trình thạc sĩ khoa học dữ liệu Chương trình khám phá

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

Sao chép dữ liệu

Truyền dữ liệu, cơ sở dữ liệu cục bộ và hồ dữ liệu đám mây chỉ là một vài trong số các nguồn dữ liệu mà các doanh nghiệp hiện đại phải đối mặt. Họ cũng có thể có các silo ứng dụng và hệ thống. Các nguồn này có khả năng trùng lặp và chồng lên nhau khá nhiều. Chẳng hạn, thông tin liên hệ trùng lặp có tác động đáng kể đến trải nghiệm của khách hàng. Nếu một số khách hàng tiềm năng bị bỏ qua trong khi những khách hàng tiềm năng khác tham gia liên tục, các chiến dịch tiếp thị sẽ bị ảnh hưởng. Khả năng kết quả phân tích sai lệch tăng lên khi có dữ liệu trùng lặp. Nó cũng có thể dẫn đến các mô hình ML với dữ liệu đào tạo sai lệch

Quá nhiều dữ liệu

Mặc dù chúng tôi nhấn mạnh đến phân tích dựa trên dữ liệu và các ưu điểm của nó, vẫn tồn tại vấn đề về chất lượng dữ liệu với lượng dữ liệu quá mức. Có nguy cơ bị lạc trong vô số dữ liệu khi tìm kiếm thông tin liên quan đến nỗ lực phân tích của bạn. Các nhà khoa học dữ liệu, nhà phân tích dữ liệu và người dùng doanh nghiệp dành 80% công việc của họ để tìm và sắp xếp dữ liệu phù hợp. Với sự gia tăng khối lượng dữ liệu, các vấn đề khác về chất lượng dữ liệu trở nên nghiêm trọng hơn, đặc biệt khi xử lý dữ liệu truyền trực tuyến và các tệp hoặc cơ sở dữ liệu lớn

Dữ liệu không chính xác

Đối với các doanh nghiệp được quản lý chặt chẽ như chăm sóc sức khỏe, độ chính xác của dữ liệu là rất quan trọng. Với trải nghiệm hiện tại, điều quan trọng hơn bao giờ hết là nâng cao chất lượng dữ liệu cho các đại dịch COVID-19 và các đại dịch sau này. Thông tin không chính xác không cung cấp cho bạn bức tranh chân thực về tình huống và không thể được sử dụng để lập kế hoạch hành động tốt nhất. Trải nghiệm khách hàng được cá nhân hóa và chiến lược tiếp thị hoạt động kém hiệu quả nếu dữ liệu khách hàng của bạn không chính xác

Dữ liệu không chính xác có thể do một số nguyên nhân, bao gồm cả sự xuống cấp của dữ liệu, lỗi của con người và dữ liệu trôi dạt. Phân rã dữ liệu trên toàn thế giới xảy ra với tốc độ khoảng 3% mỗi tháng, điều này khá đáng lo ngại. Tính toàn vẹn của dữ liệu có thể bị xâm phạm khi được truyền giữa các hệ thống khác nhau và chất lượng dữ liệu có thể giảm dần theo thời gian

Dữ liệu ẩn

Phần lớn các doanh nghiệp chỉ sử dụng một phần dữ liệu của họ, phần còn lại đôi khi bị mất trong các silo dữ liệu hoặc bị loại bỏ trong nghĩa địa dữ liệu. Chẳng hạn, nhóm dịch vụ khách hàng có thể không nhận được dữ liệu khách hàng từ việc bán hàng, bỏ lỡ cơ hội xây dựng hồ sơ khách hàng chính xác và toàn diện hơn. Bỏ lỡ các khả năng phát triển sản phẩm mới, nâng cao dịch vụ và hợp lý hóa quy trình là do dữ liệu ẩn

Tìm dữ liệu liên quan

Tìm kiếm dữ liệu liên quan không dễ dàng như vậy. Có một số yếu tố mà chúng tôi cần xem xét khi cố gắng tìm dữ liệu liên quan, bao gồm -

  • Tên miền có liên quan
  • nhân khẩu học có liên quan
  • Khoảng thời gian có liên quan và rất nhiều yếu tố khác mà chúng tôi cần xem xét khi cố gắng tìm dữ liệu có liên quan

Dữ liệu không liên quan đến nghiên cứu của chúng tôi trong bất kỳ yếu tố nào khiến nó trở nên lỗi thời và chúng tôi không thể tiến hành phân tích nó một cách hiệu quả. Điều này có thể dẫn đến nghiên cứu hoặc phân tích không đầy đủ, thu thập lại dữ liệu nhiều lần hoặc ngừng nghiên cứu

Quyết định dữ liệu cần thu thập

Xác định dữ liệu nào cần thu thập là một trong những yếu tố quan trọng nhất khi thu thập dữ liệu và phải là một trong những yếu tố đầu tiên khi thu thập dữ liệu. Chúng ta phải chọn các chủ đề mà dữ liệu sẽ đề cập, các nguồn mà chúng ta sẽ sử dụng để thu thập dữ liệu và lượng thông tin chúng ta sẽ yêu cầu. Phản hồi của chúng tôi đối với những truy vấn này sẽ phụ thuộc vào mục tiêu của chúng tôi hoặc những gì chúng tôi mong muốn đạt được khi sử dụng dữ liệu của bạn. Để minh họa, chúng tôi có thể chọn thu thập thông tin về các danh mục bài viết mà khách truy cập trang web trong độ tuổi từ 20 đến 50 thường xuyên truy cập nhất. Chúng tôi cũng có thể quyết định tổng hợp dữ liệu về độ tuổi điển hình của tất cả các khách hàng đã mua hàng từ doanh nghiệp của bạn trong tháng trước

Không giải quyết vấn đề này có thể dẫn đến làm việc gấp đôi và thu thập dữ liệu không liên quan hoặc làm hỏng toàn bộ nghiên cứu của bạn

Xử lý dữ liệu lớn

Dữ liệu lớn đề cập đến các tập dữ liệu cực kỳ lớn với cấu trúc phức tạp và đa dạng hơn. Những đặc điểm này thường dẫn đến những thách thức gia tăng trong khi lưu trữ, phân tích và sử dụng các phương pháp trích xuất kết quả bổ sung. Dữ liệu lớn đề cập đặc biệt đến các tập dữ liệu khá lớn hoặc phức tạp mà các công cụ xử lý dữ liệu thông thường là không đủ. Lượng dữ liệu khổng lồ, cả phi cấu trúc và có cấu trúc, mà một doanh nghiệp phải đối mặt hàng ngày.  

Lượng dữ liệu được tạo ra bởi các ứng dụng chăm sóc sức khỏe, internet, các trang mạng xã hội, mạng cảm biến và nhiều doanh nghiệp khác đang tăng nhanh do những tiến bộ công nghệ gần đây. Dữ liệu lớn đề cập đến khối lượng dữ liệu khổng lồ được tạo từ nhiều nguồn ở nhiều định dạng khác nhau với tốc độ cực nhanh. Xử lý loại dữ liệu này là một trong nhiều thách thức của Thu thập dữ liệu và là một bước quan trọng để thu thập dữ liệu hiệu quả.  

Phản hồi thấp và các vấn đề nghiên cứu khác

Thiết kế kém và tỷ lệ phản hồi thấp được chứng minh là hai vấn đề với việc thu thập dữ liệu, đặc biệt là trong các cuộc điều tra sức khỏe sử dụng bảng câu hỏi. Điều này có thể dẫn đến việc cung cấp dữ liệu cho nghiên cứu không đầy đủ hoặc không đầy đủ. Tạo một chương trình thu thập dữ liệu khuyến khích có thể có lợi trong trường hợp này để nhận được nhiều phản hồi hơn

Bây giờ, chúng ta hãy xem các bước chính trong quy trình thu thập dữ liệu

Các bước chính trong quy trình thu thập dữ liệu là gì?

Trong Quy trình thu thập dữ liệu, có 5 bước chính. Chúng được giải thích ngắn gọn dưới đây -

1. Quyết định dữ liệu bạn muốn thu thập

Điều đầu tiên chúng ta cần làm là quyết định thông tin nào chúng ta muốn thu thập. Chúng tôi phải chọn các chủ đề mà dữ liệu sẽ đề cập, các nguồn chúng tôi sẽ sử dụng để thu thập dữ liệu và lượng thông tin mà chúng tôi sẽ yêu cầu. Ví dụ: chúng tôi có thể chọn thu thập thông tin về danh mục sản phẩm mà một khách truy cập trang web thương mại điện tử trung bình trong độ tuổi từ 30 đến 45 thường tìm kiếm nhất.  

Trở thành nhà khoa học dữ liệu với trải nghiệm thực tế

Chương trình thạc sĩ khoa học dữ liệu Chương trình khám phá

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

2. Thiết lập thời hạn thu thập dữ liệu

Quá trình tạo chiến lược thu thập dữ liệu bây giờ có thể bắt đầu. Chúng ta nên đặt thời hạn cho việc thu thập dữ liệu của mình ngay từ đầu giai đoạn lập kế hoạch. Một số dạng dữ liệu chúng tôi có thể muốn liên tục thu thập. Chẳng hạn, chúng tôi có thể muốn xây dựng một kỹ thuật để theo dõi dữ liệu giao dịch và số liệu thống kê về khách truy cập trang web trong thời gian dài. Tuy nhiên, chúng tôi sẽ theo dõi dữ liệu trong suốt một khung thời gian nhất định nếu chúng tôi đang theo dõi dữ liệu đó cho một chiến dịch cụ thể. Trong những tình huống này, chúng tôi sẽ có lịch trình khi nào chúng tôi sẽ bắt đầu và kết thúc việc thu thập dữ liệu.  

3. Chọn một phương pháp thu thập dữ liệu

Chúng tôi sẽ chọn kỹ thuật thu thập dữ liệu sẽ làm nền tảng cho kế hoạch thu thập dữ liệu của chúng tôi ở giai đoạn này. Chúng tôi phải tính đến loại thông tin mà chúng tôi muốn thu thập, khoảng thời gian mà chúng tôi sẽ nhận được thông tin đó và các yếu tố khác mà chúng tôi quyết định để chọn chiến lược thu thập tốt nhất

4. Thu thập thông tin

Khi kế hoạch của chúng tôi hoàn tất, chúng tôi có thể thực hiện kế hoạch thu thập dữ liệu của mình và bắt đầu thu thập dữ liệu. Trong DMP của chúng tôi, chúng tôi có thể lưu trữ và sắp xếp dữ liệu của mình. Chúng ta cần cẩn thận tuân theo kế hoạch của mình và theo dõi xem nó đang hoạt động như thế nào. Đặc biệt nếu chúng tôi đang thu thập dữ liệu thường xuyên, việc lập thời gian biểu cho thời điểm chúng tôi sẽ kiểm tra xem việc thu thập dữ liệu của chúng tôi đang diễn ra như thế nào có thể hữu ích. Khi hoàn cảnh thay đổi và chúng tôi tìm hiểu các chi tiết mới, chúng tôi có thể cần sửa đổi kế hoạch của mình

5. Kiểm tra thông tin và áp dụng những phát hiện của bạn

Đã đến lúc kiểm tra dữ liệu của chúng tôi và sắp xếp các phát hiện của chúng tôi sau khi chúng tôi đã thu thập tất cả thông tin của mình. Giai đoạn phân tích là cần thiết vì nó biến đổi dữ liệu chưa được xử lý thành kiến ​​thức sâu sắc có thể áp dụng cho các kế hoạch tiếp thị, hàng hóa và đánh giá kinh doanh của chúng ta tốt hơn. Các công cụ phân tích có trong DMP của chúng tôi có thể được sử dụng để hỗ trợ giai đoạn này. Chúng tôi có thể sử dụng các khám phá để cải thiện hoạt động kinh doanh của mình sau khi chúng tôi đã khám phá ra các mẫu và thông tin chi tiết trong dữ liệu của mình

Bây giờ chúng ta hãy xem xét một số cân nhắc về thu thập dữ liệu và các phương pháp hay nhất mà một người có thể làm theo

Các cân nhắc về thu thập dữ liệu và các phương pháp hay nhất

Chúng ta phải lập kế hoạch cẩn thận trước khi dành thời gian và tiền bạc đi thực địa để thu thập dữ liệu. Trong khi tiết kiệm thời gian và nguồn lực, các chiến lược thu thập dữ liệu hiệu quả có thể giúp chúng tôi thu thập dữ liệu phong phú hơn, chính xác hơn và phong phú hơn

Dưới đây, chúng tôi sẽ thảo luận về một số phương pháp hay nhất mà chúng tôi có thể làm theo để có kết quả tốt nhất -

1. Tính đến giá của mỗi điểm dữ liệu bổ sung

Khi chúng tôi đã quyết định về dữ liệu mà chúng tôi muốn thu thập, chúng tôi cần đảm bảo tính đến chi phí cho việc đó. Người khảo sát và người trả lời của chúng tôi sẽ phải chịu thêm chi phí cho mỗi điểm dữ liệu bổ sung hoặc câu hỏi khảo sát

2. Lập kế hoạch cách thu thập từng phần dữ liệu

Có rất ít dữ liệu có thể truy cập miễn phí. Đôi khi dữ liệu ở đó, nhưng chúng tôi có thể không có quyền truy cập vào dữ liệu đó. Chẳng hạn, trừ khi có lý do thuyết phục, chúng tôi không thể xem thông tin y tế của người khác một cách công khai. Có thể khó đo lường một số loại thông tin

Xem xét việc thu thập từng mẩu thông tin sẽ tốn thời gian và khó khăn như thế nào trong khi quyết định dữ liệu nào cần thu thập

3. Hãy suy nghĩ về các lựa chọn của bạn để thu thập dữ liệu bằng thiết bị di động

Thu thập dữ liệu dựa trên thiết bị di động có thể được chia thành ba loại -

  • IVRS (công nghệ phản hồi bằng giọng nói tương tác) -  Sẽ gọi cho người trả lời và hỏi họ những câu hỏi đã được ghi âm.  
  • Thu thập dữ liệu SMS - Sẽ gửi tin nhắn văn bản đến người trả lời, sau đó người này có thể trả lời các câu hỏi bằng văn bản trên điện thoại của họ.  
  • Điều tra viên hiện trường - Có thể nhập dữ liệu trực tiếp vào bảng câu hỏi tương tác trong khi nói chuyện với từng người trả lời, nhờ ứng dụng trên điện thoại thông minh

Chúng ta cần đảm bảo chọn công cụ phù hợp cho khảo sát và người trả lời vì mỗi công cụ đều có nhược điểm và ưu điểm riêng

4. Xem xét cẩn thận dữ liệu bạn cần thu thập

Quá dễ dàng để lấy thông tin về mọi thứ và mọi thứ, nhưng điều quan trọng là chỉ thu thập thông tin mà chúng tôi yêu cầu.  

Thật hữu ích khi xem xét 3 câu hỏi này

  • Chi tiết nào sẽ hữu ích?
  • Những chi tiết nào có sẵn?
  • Những chi tiết cụ thể nào bạn yêu cầu?

5. Hãy nhớ xem xét các định danh

Số nhận dạng hoặc chi tiết mô tả bối cảnh và nguồn phản hồi khảo sát cũng quan trọng như thông tin về chủ đề hoặc chương trình mà chúng tôi đang thực sự nghiên cứu

Nói chung, việc thêm nhiều số nhận dạng sẽ cho phép chúng tôi xác định thành công và thất bại của chương trình với độ chính xác cao hơn, nhưng điều độ mới là chìa khóa

6. Thu thập dữ liệu qua thiết bị di động là cách để đi

Mặc dù việc thu thập dữ liệu trên giấy vẫn còn phổ biến, nhưng công nghệ hiện đại phụ thuộc rất nhiều vào thiết bị di động. Chúng cho phép chúng tôi thu thập nhiều loại dữ liệu khác nhau với mức giá tương đối thấp hơn và chính xác cũng như nhanh chóng. Không có nhiều lý do để không chọn thu thập dữ liệu dựa trên thiết bị di động với sự bùng nổ của các thiết bị Android giá rẻ hiện có

Tìm hiểu hơn một chục công cụ và kỹ năng khoa học dữ liệu với Chương trình PG về Khoa học dữ liệu và được tiếp cận với các lớp học chính của giảng viên Purdue. Đăng ký ngay bây giờ và thêm một ngôi sao sáng vào sơ yếu lý lịch khoa học dữ liệu của bạn

câu hỏi thường gặp

1. Thu thập dữ liệu là gì?

Thu thập dữ liệu là quá trình thu thập và phân tích thông tin về các biến có liên quan theo một cách có phương pháp, được xác định trước để người ta có thể trả lời các câu hỏi nghiên cứu cụ thể, kiểm tra các giả thuyết và đánh giá kết quả

2. Các phương pháp thu thập dữ liệu sơ cấp là gì?

Như đã biết, việc thu thập dữ liệu sơ cấp rất tốn kém và tốn thời gian. Các kỹ thuật chính để thu thập dữ liệu là quan sát, phỏng vấn, bảng câu hỏi, lịch trình và khảo sát

3. Công cụ thu thập dữ liệu là gì?

Thuật ngữ "công cụ thu thập dữ liệu" dùng để chỉ các công cụ/thiết bị được sử dụng để thu thập dữ liệu, chẳng hạn như bảng câu hỏi trên giấy hoặc hệ thống phỏng vấn có sự hỗ trợ của máy tính. Các công cụ được sử dụng để thu thập dữ liệu bao gồm nghiên cứu trường hợp, danh sách kiểm tra, phỏng vấn, thỉnh thoảng quan sát, khảo sát và bảng câu hỏi

4. Sự khác biệt giữa các phương pháp định lượng và định tính là gì?

Trong khi nghiên cứu định tính tập trung vào các từ và ý nghĩa, thì nghiên cứu định lượng liên quan đến các số liệu và thống kê. Bạn có thể đo lường một cách có hệ thống các biến số và kiểm tra các giả thuyết bằng các phương pháp định lượng. Bạn có thể tìm hiểu sâu hơn về các ý tưởng và trải nghiệm bằng cách sử dụng các phương pháp định tính

5. Phương pháp thu thập dữ liệu định lượng là gì?

Mặc dù có nhiều cách khác để lấy thông tin định lượng, nhưng các phương pháp được chỉ ra ở trên—lấy mẫu xác suất, phỏng vấn, quan sát bằng bảng câu hỏi và xem xét tài liệu—là những phương pháp điển hình và được sử dụng thường xuyên nhất, cho dù thu thập thông tin ngoại tuyến hay trực tuyến

6. Nghiên cứu theo phương pháp hỗn hợp là gì?

Nghiên cứu người dùng bao gồm cả kỹ thuật định tính và định lượng được gọi là nghiên cứu theo phương pháp hỗn hợp. Để hiểu sâu hơn về người dùng, nghiên cứu theo phương pháp hỗn hợp kết hợp dữ liệu người dùng sâu sắc với số liệu thống kê hữu ích

Bạn có quan tâm đến sự nghiệp trong Khoa học dữ liệu không?

Chúng ta đang sống trong Thời đại dữ liệu và nếu bạn muốn có một nghề nghiệp tận dụng tối đa lợi thế này, bạn nên xem xét sự nghiệp trong khoa học dữ liệu. Simplilearn cung cấp một PG trong Khoa học dữ liệu sẽ đào tạo bạn mọi thứ bạn cần biết để đảm bảo vị trí hoàn hảo. Chương trình PG Khoa học dữ liệu này lý tưởng cho tất cả các chuyên gia đang làm việc, bao gồm các chủ đề quan trọng trong công việc như R, lập trình Python, thuật toán học máy, khái niệm NLP và trực quan hóa dữ liệu với Tableau rất chi tiết. Tất cả điều này được cung cấp thông qua mô hình học tập tương tác của chúng tôi với các phiên trực tiếp của các học viên toàn cầu, phòng thí nghiệm thực tế, IBM Hackathons và các dự án công nghiệp

Hợp tác với Đại học Purdue và hợp tác với IBM, chương trình này là chương trình Sau đại học về Khoa học dữ liệu được xếp hạng số 1 bởi ET. Nó có các lớp học chính của giảng viên Purdue và các chuyên gia của IBM, các cuộc thi hackathon độc quyền và các phiên “Hỏi tôi bất cứ điều gì” của IBM

Các nhà khoa học dữ liệu ở Hoa Kỳ kiếm được trung bình hàng năm là 120.334 USD, theo Thật. Ở Ấn Độ, Payscale báo cáo rằng các nhà khoa học dữ liệu kiếm được trung bình hàng năm là ₹822,895

Nhu cầu về các nhà khoa học dữ liệu đã tăng 650% kể từ năm 2012. Vì vậy, nếu bạn muốn một nghề nghiệp sẽ được săn đón trong một thời gian dài sắp tới, hãy truy cập trang web của chúng tôi và bắt đầu nhanh chóng đến với một nghề nghiệp hấp dẫn, sinh lợi

Tìm Chương trình chứng chỉ chuyên nghiệp của chúng tôi trong Bootcamp trực tuyến về khoa học dữ liệu ở các thành phố hàng đầu

NameDatePlaceChương trình chứng chỉ chuyên nghiệp về Khoa học dữ liệuCohort bắt đầu vào ngày 20 tháng 12 năm 2022,
Đợt cuối tuầnChi tiết CityView của bạnChương trình sau đại học về Khoa học dữ liệu, SydneyCohort bắt đầu vào ngày 3 tháng 1 năm 2023,
Weekend batchSydneyView DetailsPost Graduate Program in Data Science, MelbourneCohort starts on 10th Jan 2023,
Weekend batchMelbourneView Details

Thông tin về các Tác giả

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?
đơn giản

Simplilearn là một trong những nhà cung cấp đào tạo trực tuyến hàng đầu thế giới về Tiếp thị kỹ thuật số, Điện toán đám mây, Quản lý dự án, Khoa học dữ liệu, CNTT, Phát triển phần mềm và nhiều công nghệ mới nổi khác

Bạn sẽ sử dụng những phương pháp nào để thu thập thông tin?

7 Phương pháp thu thập dữ liệu được sử dụng trong phân tích kinh doanh .
khảo sát. Khảo sát là bảng câu hỏi vật lý hoặc kỹ thuật số thu thập cả dữ liệu định tính và định lượng từ các đối tượng. .
Theo dõi giao dịch. .
Phỏng vấn và nhóm tập trung. .
Quan sát. .
Dò tìm trực tuyến. .
Các hình thức. .
Giám sát phương tiện truyền thông xã hội

5 phương pháp thu thập dữ liệu là gì?

Dưới đây là 5 ví dụ và phương pháp thu thập dữ liệu hàng đầu mà chúng tôi đã tóm tắt cho bạn. .
Khảo sát và bảng câu hỏi. .
phỏng vấn. .
quan sát. .
Hồ sơ và Tài liệu. .
Nhóm tiêu điểm