BẮT ĐẦU VỚI BIG DATA

Table of Contents

BẮT ĐẦU VỚI BIG DATA

https://thuyct89.wordpress.com/2016/08/31/bat-dau-voi-big-data/


  1. WHAT: BIG DATA LÀ GÌ?

Khái niệm Big Data là gì theo mình không phải là quan trọng so với việc người ta có thể dùng Big Data vào việc gì và dùng nó như thế nào. Tuy nhiên, để bắt đầu với Big Data thì bạn cũng nên biết Big Data là gì chứ nhỉ. Một chút thôi cũng được.

Tìm kiếm với từ khoá "Big Data là gì?" trên google thì chắc chắn sẽ ra nhiều kết quả khác nhau, nhưng định nghĩa sau mình thấy là phù hợp nhất:

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và/hoặc rất phức tạp đến nỗi những công cụ, kỹ thuật xử lý dữ liệu truyền thống không thể nào đảm đương được.

Nói đến Big Data người ta thường nói có 4 chữ V thể hiện đặc trưng của Big Data. 4V đó là:

-- Volume: là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte.

-- Velocity: là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Một ví dụ đơn giản là trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,....) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.

-- Variety: là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng phức tạp hơn.

-- Veracity: là tính xác thực của dữ liệu. Với xu hướng Social ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.

Đến đây, chắc nhiều bạn sẽ có câu hỏi là "Vậy dữ liệu lớn đến cỡ nào thì được coi là Big Data?". Câu trả lời là tuỳ vào dữ liệu của bạn. Có những dữ liệu kích thước nhỏ nhưng mà lại là "lớn", và cũng có những dữ liệu kích thước lớn mà lại là "nhỏ". Ví dụ, hệ thống của bạn hoạt động trong vòng 10 năm và tạo ra các file log, các file này đơn thuần là các file text ghi lại các thao tác của người dùng chẳng hạn. Tổng dung lượng của các file text có thể chỉ là 100GB (kích thước nhỏ) nhưng nó lại là "lớn" để tiến hành phân tích, do đó có thể coi đó là một ngưồn Big Data. Ngược lại bạn có thể có 1000 file video, mỗi file kích thước khoảng 20GB, tổng cộng bạn có khoảng 20TB dữ liệu (kích thước lớn), nhưng nó lại là nhỏ khi tiến hành phân tích và không phải là Big Data.

  1. WHY: TẠI SAO CẦN ĐẾN BIG DATA?

Big Data làm được gì hay Tại sao lại cần đến Big Data chắc chắn là một câu hỏi được nhiều người quan tâm. Tập đoàn SAS có nêu lên rằng vấn đề của Big Data thật sự không nằm ở việc bạn thu thập dữ liệu như thế nào, mà thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại đó là: cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn.

Một ví dụ cụ thể: nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt... Do đó, việc nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn.

Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm.

Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài.

Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới.

Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm.

Một ví dụ kinh điển nữa là trong chiến dịch tái tranh cử của Tổng thống Mỹ Barack Obama năm 2012, người ta đã cho rằng ông trúng cử là nhờ đã khai thác tối đa hiệu ứng của mạng xã hội và hiệu quả của việc phân tích dữ liệu lớn -- Big Data. Hay như năm 2014, đội tuyển quốc gia Đức đã vô địch World Cup cũng là một phần nhờ vào công nghệ Big Data với phân tích lượng dữ liệu khổng lồ về các cầu thủ thuộc đội nhà cũng như đối phương, sau đó chuyển đổi sang dạng đồ thị và môi trường mô phỏng để có thể xem trực tiếp trên tablet hay smartphone.

  1. HOW: CÔNG NGHỆ NÀO GIẢI QUYẾT BÀI TOÁN BIG DATA?

Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.

Và sử dụng nền tảng công nghệ nào để giải quyết bài toán Big Data?

Năm 2011, tập đoàn phân tích McKinsey đề xuất những công nghệ có thể dùng với Big Data bao gồm crowdsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp các server mạnh lại với nhau .... Ngoài ra, các CSDL hỗ trợ xử lý dữ liệu song song, ứng dụng dựa trên hoạt động tìm kiếm, khai phá dữ liệu, hệ thống file phân tán, CSDL phân tán, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và cả bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ Big Data.

Như vậy, công nghệ để giải quyết bài toán Big Data là tổng hợp rất nhiều các công nghê, kỹ thuật khác nhau. Bản thân mỗi công nghệ, kỹ thuật này đều là những kỹ thuật khó, cần nhiều thời gian để nghiên cứu và phát triển. Đó là về mặt lý thuyết, còn theo mình, bài toán Big Data là rất đa dạng về nhu cầu hay là lĩnh vực áp dụng và không nhất thiết phải áp dụng tất cả các công nghệ, kỹ thuật trên mới có thể khai thác được giá trị của Big Data. Tuỳ từng bài toán cụ thể, nhu cầu cụ thể mà có thể lựa chọn một cách linh hoạt các công nghệ đó. Ở những bài tiếp theo mình sẽ giới thiệu về Apache Hadoop -- một framework cho phép phát triển các ứng dụng phân tán, được dùng chủ yếu để giải quyết các bài toán Big Data.

  1. WHEN: KHI NÀO BẠN CẦN GIẢI QUYẾT BÀI TOÁN BIG DATA?

Trả lời:

-- Khi bạn có trong tay một lượng dữ liệu cực kỳ lớn mà bạn biết rằng chứa trong đó là rất nhiều giá trị có thể đem lại lợi nhuận cho bạn thông qua những việc như thúc đẩy doanh số bán hàng, đem lại nhiều tiện ích hơn cho người dùng, ...

-- Hoặc ngay cả khi bạn chưa có dữ liệu nhưng bạn có thể định hình ra được một luồng khai thác giá trị của thông tin từ những nguồn thông tin thô có thể thu thập được. Với trường hợp này có lẽ là vất vả và khó thực hiện hơn bởi bạn phải giải quyết cả bài toán thu thập thông tin như thế nào cho đúng.

  1. WHO: NHỮNG AI CÓ THỂ GIẢI QUYẾT ĐƯỢC BÀI TOÁN BIG DATA?

Trả lời: Để có thể giải quyết bài toán Big Data, bạn phải có những kiến thức cơ bản về những lĩnh vực sau:

  • Kiến thức cơ bản toán học, thống kê và máy học
  • Kiến thức về lập trình
  • Kiến thức về cơ sở dữ liệu

Nếu là lập trình viên, về cơ bản bạn đã có kiến thức về lập trình và cơ sở dữ liệu rồi, do đó bạn cần phải tìm hiểu thêm các kiến thức về toán học, thống kê và máy học nữa.

Ngoài ra, theo mình để khai thác một cách hiệu quả giá trị mà Big Data mang lại thì một điểm mấu chốt nữa không thể bỏ qua đó là bạn phải là người cực kỳ hiểu mô hình nghiệp vụ (business) của hệ thống thông tin sở hữu Big Data đó.

  1. WHERE: BẠN CÓ THỂ LÀM VỚI BIG DATA Ở ĐÂU?

Trả lời:

Bất cứ tổ chức nào có phát sinh nguồn dữ liệu lớn và dữ liệu đó mang lại giá trị có thể khai thác được thì đều có thể áp dụng bài toán Big Data vào, ví dụ như các hệ thống thương mại điện tử, các nhà mạng viễn thông, các cơ quan chính phủ, ...


Kết luận: Big Data chứa trong nó rất nhiều thông tin hữu ích mà nếu các doanh nghiệp, tổ chức biết cách khai thác thì hoàn toàn có thể biến những thông tin đó trở thành những giá trị hiện thực, cắt giảm chi phí, đem lại nhiều lợi nhuận cho tổ chức, doanh nghiệp sở hữu chúng. Big Data còn là lĩnh vực mới mẻ, tuy nhiên tiềm năng khai thác của nó là rất lớn, chắc chắn sẽ là lĩnh vực phát triển bùng nổ trong tương lai gần.

Leave a Reply

Your email address will not be published. Required fields are marked *