Blog

Big Data là gì? Đặc trưng và ứng dụng của dữ liệu lớn

Big Data là lĩnh vực phát triển nhanh chóng, tiềm năng tương lai lớn. Nắm bắt và ứng dụng Big Data hiệu quả giúp doanh nghiệp nâng cao hiệu quả, tăng cạnh tranh, tạo giá trị mới. FPT IS chia sẻ đặc trưng và ứng dụng của công nghệ này trong các lĩnh vực.*

1. Big Data (dữ liệu lớn) là gì?

Big Data là thuật ngữ dùng để chỉ việc xử lý tập hợp dữ liệu cực lớn, phức tạp, vượt quá khả năng xử lý của các ứng dụng dữ liệu truyền thống. Big Data bao gồm phân tích, thu thập, giám sát, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan hóa, truy vấn và bảo mật dữ liệu.

Ví dụ: Shopee, Tiki, Youtube, Spotify dùng Big Data thu thập và phân tích thông tin khách hàng, cá nhân hóa nội dung (VD: gợi ý váy áo cho người đã tìm kiếm sản phẩm tương tự), tăng tỉ lệ chốt đơn, nâng cao doanh thu.

2. Đặc điểm của Big Data

Big Data có 3 chữ “V” chính:

  • Volume (Khối lượng): Big Data đồng nghĩa với khối lượng dữ liệu khổng lồ, vượt quá khả năng lưu trữ và xử lý của hệ thống cũ. Data lake giúp việc lưu trữ và xử lý dễ dàng, tiện lợi hơn.
  • Velocity (Tốc độ): Dữ liệu Big Data được tạo và thu thập liên tục với tốc độ rất cao.
  • Variety (Tính đa dạng): Dữ liệu Big Data đa dạng định dạng: văn bản, hình ảnh, video, âm thanh, dữ liệu cảm biến, nhật ký,…

Ngoài 3 chữ V gốc, còn có 3 chữ V khác liên quan đến khai thác sức mạnh dữ liệu lớn: tính xác thực (Veracity), tính biến thiên (Variability) và giá trị (Value).

Tính chính xác (Veracity)

Dữ liệu lớn có thể hỗn độn, dễ lỗi, gây khó khăn cho việc kiểm soát chất lượng và độ chính xác.

Tính biến đổi (Variability)

Dữ liệu thu thập liên tục thay đổi, gây không nhất quán theo thời gian. Thay đổi này bao gồm thay đổi về bối cảnh, cách diễn giải và cả phương pháp thu thập.

Giá trị (Value)

Dữ liệu lớn phải chứa dữ liệu phù hợp, có giá trị cho tổ chức/doanh nghiệp, giúp đưa ra quyết định sáng suốt, cải thiện hiệu quả và tạo lợi thế cạnh tranh.

3. Các loại dữ liệu lớn

Dựa vào cấu trúc, Big Data được chia làm 3 loại chính:

Dữ liệu có cấu trúc

Đây là loại dữ liệu dễ quản lý và tìm kiếm nhất. Dữ liệu được lưu trữ và xử lý ở định dạng cố định, có thể truy cập và xử lý dễ dàng bằng MySQL, Oracle, SQL Server. Ví dụ: thông tin khách hàng, dữ liệu giao dịch, dữ liệu tài chính,…

Dữ liệu bán cấu trúc

Dữ liệu này có cấu trúc nhất định nhưng không hoàn toàn tuân theo định dạng cố định. Chúng được xử lý bằng công cụ truyền thống sau khi được xử lý sơ bộ.

Ví dụ: email HTML, XML, JSON,…

Dữ liệu phi cấu trúc

Dữ liệu này không có định dạng cố định, khó xử lý bằng công cụ truyền thống. Chúng chiếm phần lớn khối lượng dữ liệu Big Data.

Ví dụ: email, tin nhắn, hình ảnh, video, âm thanh, dữ liệu cảm biến, nhật ký,…

Ngoài ra, có 3 loại dữ liệu sau:

Dữ liệu không gian địa lý (Geospatial data)

Đây là tập dữ liệu lớn chứa thông tin về vị trí, thuộc tính của các đối tượng trên Trái Đất.

Ví dụ: bản đồ, hình ảnh vệ tinh, dữ liệu cảm biến, dữ liệu giao thông, dữ liệu dân số,…

Dữ liệu ghi nhật ký máy (Machine/ operational logging data)

Dữ liệu máy là thông tin do hoạt động của máy tính hoặc ứng dụng tạo ra, không có sự tham gia của con người. Ví dụ: bản ghi chi tiết cuộc gọi, tệp nhật ký ứng dụng.

Dữ liệu nguồn mở (Open source data)

Cơ sở dữ liệu nguồn mở chứa dữ liệu quan trọng trong phần mềm thuộc thẩm quyền của tổ chức. Người dùng có thể xây dựng hệ thống tùy theo nhu cầu. Nó miễn phí, dễ chia sẻ, đáp ứng mọi lựa chọn của người dùng bằng cách thay đổi mã nguồn, đáp ứng nhu cầu phân tích dữ liệu với chi phí hợp lý hơn.

4. Cách thức Big Data hoạt động

Big Data hoạt động dựa trên quy trình nhiều bước liên kết chặt chẽ:

Thu thập dữ liệu

Thu thập dữ liệu là bước đầu tiên, quan trọng nhất trong quá trình Big Data Analytics. Dữ liệu được thu thập từ nhiều nguồn:

Các nguồn truyền thống

  • Hệ thống cơ sở dữ liệu: Dữ liệu từ hệ thống cơ sở dữ liệu nội bộ (CRM, ERP, kế toán,…).
  • Các báo cáo: Dữ liệu từ báo cáo kinh doanh, báo cáo tài chính, báo cáo bán hàng,…
  • Các cuộc khảo sát khách hàng: Dữ liệu từ khảo sát khách hàng để hiểu nhu cầu, sở thích.

Các nguồn trực tuyến

  • Mạng xã hội: Dữ liệu từ Facebook, Twitter, Instagram,…
  • Trang web: Dữ liệu từ trang web của doanh nghiệp (dữ liệu lưu lượng, dữ liệu mua sắm online,…).
  • Ứng dụng di động: Dữ liệu từ ứng dụng di động (dữ liệu sử dụng, dữ liệu mua sắm trong ứng dụng,…).

Xử lý dữ liệu

Dữ liệu Big Data ở dạng thô, cần xử lý trước khi phân tích. Quá trình xử lý bao gồm:

  • Làm sạch dữ liệu: Loại bỏ dữ liệu lỗi, trùng lặp và thiếu sót.
  • Chuyển đổi dữ liệu: Chuyển đổi dữ liệu sang định dạng phù hợp cho việc phân tích.
  • Tích hợp dữ liệu: Kết hợp dữ liệu từ nhiều nguồn khác nhau.

Phân tích dữ liệu

Dữ liệu Big Data được phân tích bằng công cụ, kỹ thuật phân tích dữ liệu tiên tiến (Hadoop MapReduce, Apache Spark, Apache Storm,…).

Mục tiêu là trích xuất thông tin có giá trị, giúp doanh nghiệp đưa ra quyết định sáng suốt, cải thiện hiệu quả, tạo lợi thế cạnh tranh.

Trực quan hóa dữ liệu

Dữ liệu Big Data được trực quan hóa bằng biểu đồ, hình ảnh, bản đồ để giúp người dùng dễ hiểu, nắm bắt thông tin.

Trực quan hóa giúp doanh nghiệp truyền đạt thông tin hiệu quả hơn, hỗ trợ ra quyết định nhanh chóng.

5. Big Data có vai trò như thế nào trong doanh nghiệp?

Big Data đóng vai trò quan trọng trong sự phát triển của doanh nghiệp trong thời đại số:

Đưa ra quyết định kịp thời, chính xác

Ra quyết định dựa trên dữ liệu là bắt buộc với nhà quản trị. Phân tích big data giúp doanh nghiệp đưa ra quyết định dựa trên số liệu rõ ràng thay vì trực giác, hiểu quá khứ, hiện tại và dự đoán tương lai.

Ví dụ: Phân tích dữ liệu khách hàng giúp doanh nghiệp nhận diện xu hướng tìm kiếm và mua hàng, điều chỉnh sản phẩm và dịch vụ phù hợp.

Tăng hiệu quả hoạt động kinh doanh

Big Data giúp doanh nghiệp phân tích các hoạt động kinh doanh nhanh chóng (khách hàng mới, số lượng hàng tồn, tỷ lệ khách hàng quay lại, thống kê phản hồi,…). Nhờ đó, doanh nghiệp có cái nhìn chi tiết, cải thiện hiệu suất nhân sự, vận hành hiệu quả hơn.

Tạo lợi thế cạnh tranh

Với dữ liệu lớn, doanh nghiệp theo dõi hoạt động của đối thủ. Phân tích website, chiến dịch của đối thủ, thu thập số liệu doanh nghiệp, giúp nhà quản trị xác định điểm cần cải thiện để đuổi kịp hoặc vượt qua đối thủ.

Phát triển các mô hình kinh doanh mới

Big Data giúp tối đa hóa hiệu quả trên toàn bộ mô hình kinh doanh. Doanh nghiệp xem dữ liệu về cách các phòng ban làm việc hiệu quả nhất, quản lý sự hợp tác, thậm chí cả hoạt động của đối thủ.

Những thông tin này giúp nhà quản lý đảm bảo mô hình kinh doanh hoạt động tối ưu cho doanh nghiệp.

6. Thách thức triển khai Big Data

Thế giới số hóa, lượng dữ liệu tăng theo cấp số nhân, từ nhiều nguồn (mạng xã hội, hệ thống giao dịch,…).

“Big Data” đi kèm với thách thức riêng, thường gọi là “4 V”: Khối lượng (Volume), Tốc độ (Velocity), Sự đa dạng (Variety) và Tính chính xác (Veracity).

Khối lượng (Volume)

  • Lưu trữ: Khối lượng dữ liệu khổng lồ đòi hỏi giải pháp lưu trữ quy mô lớn, tiết kiệm chi phí và có khả năng mở rộng.
  • Xử lý: Độ phức tạp của việc xử lý tăng theo khối lượng dữ liệu. Các tổ chức dùng hệ thống máy tính phân tán như Hadoop, Spark, Flink để xử lý nhanh chóng và hiệu quả.
  • Chi phí: Quản lý khối lượng lớn dữ liệu tốn kém do đòi hỏi cơ sở hạ tầng và công cụ chuyên dụng. Chi phí lưu trữ, xử lý có thể tăng nhanh.
  • Chất lượng dữ liệu: Khối lượng dữ liệu có thể ảnh hưởng đến chất lượng và độ chính xác. Khó đảm bảo dữ liệu đầy đủ, không lỗi.
  • Quản trị dữ liệu: Doanh nghiệp cần đảm bảo quyền riêng tư, bảo mật dữ liệu, tuân thủ quy định, quản lý quyền truy cập.

Tốc độ (Velocity)

  • Xử lý thời gian thực: Áp dụng hệ thống thời gian thực, IoT, dữ liệu được tạo ra với tốc độ chưa từng thấy, gây khó khăn cho việc xử lý và phân tích trong thời gian thực.
  • Nhập dữ liệu: Cần cơ chế nhập dữ liệu hiệu quả để xử lý lượng lớn dữ liệu, đòi hỏi đường dẫn nhập mạnh mẽ để xử lý từ nhiều nguồn, định dạng khác nhau.
  • Tích hợp dữ liệu: Dữ liệu lớn từ nhiều nguồn, có định dạng và cấu trúc khác nhau. Tích hợp có thể là thách thức, đòi hỏi tiêu chuẩn hóa và ánh xạ dữ liệu sang định dạng chung.
  • Chất lượng dữ liệu: Tốc độ truyền cao có nguy cơ xảy ra lỗi, thiếu nhất quán. Vấn đề chất lượng ảnh hưởng đến độ chính xác, độ tin cậy của thông tin.
  • Lưu trữ dữ liệu: Cần hệ thống lưu trữ tốc độ cao để xử lý tốc độ dữ liệu cao. Hệ thống lưu trữ truyền thống có thể không theo kịp.
  • Bảo mật: Cần cơ chế bảo mật mạnh mẽ để bảo vệ dữ liệu nhạy cảm (truyền dữ liệu an toàn, kiểm soát truy cập, mã hóa).

Sự đa dạng (Variety)

Nhiều định dạng dữ liệu khiến việc đảm bảo dữ liệu được chuẩn hóa và nhất quán giữa các nguồn khác nhau là một thách thức. Dẫn đến khó khăn trong việc tích hợp và phân tích.

Tính chính xác (Veracity)

Tính xác thực bao gồm độ chính xác, tính đầy đủ, tính nhất quán và độ tin cậy. Đây là thách thức đáng kể vì dữ liệu có thể nhiễu, không đầy đủ hoặc sai sót, dẫn đến phân tích không chính xác, quyết định sai lầm.

7. Ứng dụng của dữ liệu lớn trong các lĩnh vực

Big Data được ứng dụng rộng rãi trong nhiều lĩnh vực, mang lại nhiều lợi ích thiết thực:

Lĩnh vực y tế

  • Phân tích hình ảnh y tế (X-quang, MRI, CT scan) hỗ trợ chẩn đoán bệnh chính xác hơn, nhanh chóng hơn.
  • Phân tích dữ liệu bệnh nhân, dữ liệu gen, dữ liệu thử nghiệm lâm sàng để nghiên cứu phương pháp điều trị mới, phát triển thuốc mới.
  • Dữ liệu lớn để phân tích dữ liệu bệnh nhân, cá nhân hóa phương pháp điều trị, chăm sóc sức khỏe.

Lĩnh vực tài chính

  • Phân tích giao dịch tài chính để phát hiện gian lận, rửa tiền.
  • Phân tích dữ liệu thị trường, dữ liệu khách hàng để đánh giá, quản lý rủi ro tài chính.
  • Phân tích nhu cầu khách hàng để phát triển sản phẩm tài chính mới phù hợp.

Lĩnh vực bán lẻ

  • Phân tích hành vi mua sắm của khách hàng để hiểu nhu cầu, sở thích.
  • Cá nhân hóa trải nghiệm mua sắm, tăng sự hài lòng, lòng trung thành của khách hàng.
  • Dự báo nhu cầu, tối ưu hóa hàng tồn kho, chuỗi cung ứng.

Lĩnh vực sản xuất

  • Phân tích dữ liệu cảm biến để dự đoán hỏng hóc thiết bị, giảm thời gian chết, tăng hiệu quả sản xuất.
  • Phân tích dữ liệu sản xuất để tối ưu hóa quy trình, giảm lãng phí, nâng cao hiệu quả.
  • Phân tích nhu cầu khách hàng, dữ liệu thị trường để phát triển sản phẩm mới.

Chính phủ

  • Cải thiện dịch vụ công (cấp phép, nộp thuế, an ninh công cộng).
  • Chống tham nhũng, lãng phí.
  • Phân tích dữ liệu xã hội, kinh tế để lập kế hoạch chính sách hiệu quả hơn.

Ngoài ra, dữ liệu lớn còn được ứng dụng để:

  • Tối ưu hóa hệ thống giao thông, giảm tắc nghẽn, tai nạn.
  • Quản lý lưới điện, tiết kiệm năng lượng, phát triển năng lượng tái tạo.
  • Cá nhân hóa việc học tập, đánh giá hiệu quả, cải thiện chất lượng giáo dục.

8. Các công nghệ dành cho Big Data

Công nghệ Big data được chia thành 4 loại chính: lưu trữ dữ liệu, khai thác dữ liệu, phân tích dữ liệu và trực quan hóa dữ liệu.

Lưu trữ dữ liệu

Công nghệ liên quan đến việc lưu trữ để tìm nạp, lưu trữ và quản lý dữ liệu lớn. Hai công nghệ phổ biến là Apache Hadoop và MongoDB.

Apache Hadoop

Apache là nền tảng phần mềm nguồn mở lưu trữ và xử lý dữ liệu lớn trong môi trường điện toán phân tán trên các cụm phần cứng.

MongoDB

MongoDB là cơ sở dữ liệu NoSQL lưu trữ khối lượng dữ liệu lớn. Sử dụng cặp khóa-giá trị, MongoDB phân loại tài liệu thành bộ sưu tập.

Khai thác dữ liệu

Công nghệ như Rapidminer và Presto có thể biến dữ liệu có cấu trúc và phi cấu trúc thành thông tin dùng được.

Rapidminer

Rapidminer là công nghệ khai thác dữ liệu để xây dựng mô hình dự đoán máy móc và học sâu.

Presto

Presto là công nghệ truy vấn nguồn mở do Facebook phát triển để chạy truy vấn phân tích trên tập dữ liệu lớn. Hiện tại Presto được áp dụng rộng rãi.

Phân tích dữ liệu

Trong phân tích dữ liệu lớn, công nghệ được sử dụng để làm sạch, chuyển đổi dữ liệu thành thông tin. Người dùng thực hiện thuật toán, mô hình, phân tích dự đoán bằng công nghệ như Apache Spark và Splunk.

Apache Spark

Spark là công cụ dữ liệu lớn để phân tích dữ liệu. Spark nhanh hơn Hadoop vì dùng RAM.

Splunk

Splunk thu thập thông tin chuyên sâu từ tập dữ liệu lớn, tạo biểu đồ, báo cáo, bảng điều khiển, kết hợp trí tuệ nhân tạo (AI) vào kết quả.

Trực quan hóa dữ liệu

Big Data giúp tạo ra hình ảnh trực quan từ dữ liệu. Trực quan hóa giúp người quản lý trình bày đề xuất đến khách hàng bằng cách kể lại câu chuyện bằng biểu đồ đơn giản.

Tableau

Công cụ có giao diện kéo và thả dễ dàng, giúp tạo biểu đồ tròn, biểu đồ thanh, sơ đồ hộp, biểu đồ Gantt,… nền tảng an toàn để chia sẻ bảng điều khiển trong thời gian thực.

Looker

Nền tảng phân tích dữ liệu và trí tuệ kinh doanh (BI) dựa trên đám mây, giúp doanh nghiệp khám phá, trực quan hóa, chia sẻ thông tin chi tiết từ dữ liệu dễ dàng, hiệu quả.

9. Các use case ứng dụng Big Data trong thực tiễn

Dữ liệu lớn giúp ích rất nhiều trong các hoạt động thực tiễn, bao gồm trải nghiệm và phân tích khách hàng:

Phát triển sản phẩm mới

Doanh nghiệp ứng dụng Big Data để phát triển sản phẩm mới đáp ứng nhu cầu khách hàng. Phân tích dữ liệu về nhu cầu, xu hướng tìm kiếm, xu hướng thị trường, các nhà sản xuất phát triển sản phẩm phù hợp với thị trường.

Ví dụ: Netflix, PG ứng dụng Big data để dự đoán nhu cầu khách hàng để đưa ra sản phẩm/dịch vụ mới.

Tối ưu hóa giá cả

Nhà bán lẻ dùng Big Data để tối ưu giá sản phẩm. Phân tích dữ liệu về nhu cầu thị trường, chi phí sản xuất, giá cả đối thủ cạnh tranh, xác định mức giá phù hợp để tối đa hóa lợi nhuận.

Ví dụ: Walmart dùng Big Data để điều chỉnh giá theo từng khu vực, thời điểm.

Phân tích hành vi khách hàng

Nhà bán lẻ dùng Big Data để phân tích hành vi mua sắm (sản phẩm mua, thời điểm mua, cách mua, giá cả). Từ đó đưa ra chiến lược tiếp thị và bán hàng hiệu quả.

Ví dụ: Amazon dùng Big Data để đề xuất sản phẩm dựa trên lịch sử mua sắm.

Phát hiện gian lận

Các công ty tài chính dùng Big Data để phân tích giao dịch tài chính, xác định giao dịch khả nghi.

Ví dụ: MasterCard dùng Big Data để phát hiện giao dịch thẻ tín dụng gian lận.

Dự đoán hỏng hóc thiết bị

Phân tích dữ liệu về hiệu suất thiết bị, cảm biến, các nhà sản xuất dự đoán khi nào thiết bị hỏng hóc, thực hiện bảo trì phòng ngừa để tránh gián đoạn sản xuất.

Ví dụ: GE dùng Big Data để dự đoán hỏng hóc động cơ máy bay.

Tối ưu hóa quy trình sản xuất Nhờ phân tích dữ liệu về hiệu suất, thời gian chết, nhà sản xuất xác định điểm nghẽn, cải thiện sản phẩm.

Ví dụ: Toyota dùng Big Data để tối ưu quy trình sản xuất ô tô.

Bài viết liên quan