Dữ liệu lớn (Big Data) là gì?

234

Chúng ta đang sống trong một thời đại khi hầu hết mọi người đang góp phần vào việc tạo ra một lượng dữ liệu rất lớn mỗi ngày – từ việc tham gia vào các trang web truyền thông xã hội như Twitter và Facebook, đến việc xem video trong các trang web đa phương tiện như YouTube và Vimeo, và thực hiện các tìm kiếm sử dụng Google và Bing. Điều gì sẽ xảy ra với các dữ liệu này? Nó được lưu trữ ở đâu? Làm thế nào để tất cả chúng có thể liên kết với nhau? Sự hiểu biết về dữ liệu lớn (big data) sẽ cho chúng ta câu trả lời.

Big data
Ảnh: Doanh nhân Sài Gòn

Để hiểu được big data, đầu tiên chúng ta cần biết về 3 khái niệm chính của dữ liệu – Khối lượng (volume), Sự đa dạng (variety), và Tốc độ lưu thông (velocity), như được trình bày bởi Doug Laney của Tập đoàn Gartner trong một báo cáo vào tháng Hai năm 2001:

1) Khối lượng – là khối lượng dữ liệu đang được lưu trữ hàng ngày bởi các công ty, trong các trung tâm dữ liệu. Theo StatisticBrain.com, một con số đáng kinh ngạc: 58 triệu dữ liệu tweet gửi đi mỗi ngày được lưu trữ bởi Twitter.

2) Sự đa dạng – là tập hợp dữ liệu ở rất nhiều các định dạng có cấu trúc và phi cấu trúc khác nhau như cảm biến GPS, hình ảnh, video, và bài viết blog. Điện thoại cá nhân Samsung Galaxy Note 2 của tôi có rất nhiều cảm biến cũng đang góp phần vào những dữ liệu này.

3) Tốc độ lưu thông – là tốc độ mà tại đó dữ liệu được phân tích bởi các công ty để cung cấp một trải nghiệm người dùng tốt hơn. Nếu tôi không thể có được kết quả tìm kiếm Google trong một vài giây, tôi đã mất kiên nhẫn.

Từ đó, nhiều khái niệm khác bao gồm tính xác thực, tính hiệu lực, và tính biến động đã được thêm vào bởi nhiều công ty khi họ bắt đầu sử dụng các công nghệ dữ liệu lớn.

Dữ liệu lớn do đó có thể được hiểu là những số lượng lớn các dữ liệu được thu thập bởi các công ty sau đó được xử lý để “để có được những hiểu biết về xu hướng kinh doanh chủ yếu của người dùng, ngăn ngừa bệnh tật, phòng chống tội phạm, v.v…”. Nếu được quản lý tốt, “các dữ liệu này có thể được sử dụng để mở ra các nguồn giá trị kinh tế mới, cung cấp những hiểu biết mới về khoa học và khiến các tổ chức chính phủ có trách nhiệm”, như tuyên bố của báo The Economist trong bài ” Dữ liệu, dữ liệu ở khắp mọi nơi”.

Những công ty đang sử dụng Big Data

Tiềm năng to lớn trong việc khai thác dữ liệu lớn cho mục đích thương mại đã thúc đẩy một số ngành công nghiệp sử dụng những công nghệ như vậy.

Apxio, một công ty có trụ sở tại San Mateo, California, sử dụng dữ liệu lớn để tổ chức sắp xếp khối lượng lớn các hồ sơ bệnh nhân từ nhiều nguồn khác nhau (Sự đa dạng) và các nhà cung cấp dịch vụ chăm sóc sức khỏe một cách hệ thống cho việc tìm kiếm thông tin được thuận tiện.

Knewton, một công ty cung cấp phương pháp học tập thích ứng (adaptive learning) có trụ sở tại thành phố New York, là đối tác với các công ty học tập tiên phong (pioneering learning), nhà xuất bản, nhà cung cấp nội dung, và các tổ chức giáo dục, đang sử dụng công nghệ dữ liệu lớn để cải thiện những trải nghiệm giáo dục cho mỗi học sinh sinh viên.

Kapow Software, có trụ sở tại Palo Alto, California, là nhà cung cấp hàng đầu của các ứng dụng xử lý thông minh cho các công ty nhằm giúp họ tăng khả năng đáp ứng của họ đối với khách hàng (Tốc độ).

Các công ty như Netflix và Amazon sử dụng các thuật toán dữ liệu lớn phức tạp để cung cấp các gợi ý phim ảnh và sách báo đến người dùng của họ.

Công nghệ / Khoa học dữ liệu trong Dữ liệu lớn

Mầm mống của việc xử lý dữ liệu lớn có quy mô lớn đã bắt đầu được gieo cấy vào thế giới công nghệ bởi công cụ tìm kiếm khổng lồ Google vào năm 2004 khi họ công bố một bài nghiên cứu về một nền tảng kiến trúc được gọi là MapReduce, cho phép một lượng lớn dữ liệu có thể được chia nhỏ để xử lý đồng thời bằng các hệ thống được gọi là Mappers trong Giai đoạn lập bản đồ (Map phase), rồi sau đó được kết hợp với nhau bởi các hệ thống khác gọi là Reducers trong Giai đoạn làm giảm (Reduce phase). Nền tảng này thành công đến nỗi một dự án mã nguồn mở với tên gọi Hadoop đã được mở ra vào năm 2005 mà đến bây giờ vẫn là một trong những sản phẩm phần mềm phổ biến nhất xử lý những tác vụ nặng về dữ liệu có quy mô lớn.

Sau đó vào năm 2006, Amazon đóng vai trò quan trọng trong việc cung cấp dịch vụ máy tính từ xa với giá thấp cho khách hàng bên ngoài qua Internet (công nghệ điện toán đám mây) bằng cách tạo ra Dịch vụ Web Amazon, cũng đã thành công vang dội.

Khi phần cứng bắt đầu có giá rẻ hơn và một số lượng lớn các phần mềm miễn phí đã có sẵn, nhiều công ty mới thành lập đã mạnh dạn nhúng tay vào việc cung cấp các dịch vụ dữ liệu lớn.

Việc xử lý và phân tích dữ liệu lớn dựa trên những nghiên cứu trong nhiều lĩnh vực bao gồm khoa học máy tính, thống kê, toán học, kỹ thuật dữ liệu, nhận dạng mẫu, trực quan hóa, trí tuệ nhân tạo, máy học, và tính toán hiệu năng cao. Thuật ngữ khoa học dữ liệu hiện ngày càng được sử dụng để nói về việc phân tích dữ liệu bằng cách kết hợp các lĩnh vực trên.

Một chức danh mới trong kinh doanh được gọi là nhà khoa học dữ liệu đã xuất hiện. Thuật ngữ này ban đầu được đặt ra bởi DJ Patil và Jeff Hammerbacher, những người đã xây dựng các nhóm Khoa Học Dữ Liệu chính thức đầu tiên tại Facebook và LinkedIn, và đã công bố một báo cáo về nó tại O’Reilly Radar.

Lo ngại về quyền riêng tư liên quan đến Dữ liệu lớn

Với những tiến bộ trong việc tính toán sử dụng các công nghệ dữ liệu lớn, việc xem xét các khía cạnh riêng tư liên quan đến tập hợp dữ liệu cũng là điều quan trọng. Chương trình giám sát PRISM NSA, được tiết lộ bởi cựu nhận viên NSA – Edward Snowden, và được xuất bản bởi báo The Guardian và The Washington Post, đã sử dụng những công nghệ dữ liệu lớn để thu thập thông tin người dùng trong đó có email, lịch sử tìm kiếm, và những đoạn trò chuyện trực tuyến. Trong một cuộc họp báo vào ngày 9 tháng 8, Tổng thống Obama thừa nhận rằng “công tác gián điệp trong nước đã gây rắc rối cho người Mỹ và làm tổn hại hình ảnh của đất nước đối với nước ngoài. Nhưng ông gọi nó là một công cụ chống khủng bố quan trọng “.

Xem thêm: