Blog

Câu chuyện về Big Data (phần 2) - Để dữ liệu lên tiếng

24/04/2019

Thật dễ nhận thấy những thành quả của xã hội thông tin, với một điện thoại di động và một máy tính bỏ túi mỗi người, cùng các hệ thống công nghệ thông tin lớn trong văn phòng khắp mọi nơi. Nhưng điều người ta ít thấy rõ hơn là chính thông tin.

Một nửa thế kỷ sau khi máy tính bước vào xã hội chính thống, dữ liệu bắt đầu được tích lũy nhiều tới mức mà một điều gì đó mới mẻ và đặc biệt sắp xảy ra. Không những thế giới tràn ngập thông tin nhiều hơn bao giờ hết, mà thông tin còn tăng nhanh hơn. Sự thay đổi về quy mô đã dẫn đến một sự thay đổi về trạng thái. Thay đổi về lượng đã dẫn tới thay đổi về chất. Các khoa học như thiên văn, gen, mới được trải nghiệm sự bùng nổ trong những năm 2000, đã đưa ra thuật ngữ “dữ liệu lớn”, khái niệm mà nay đã di trú vào tất cả các lĩnh vực của đời sống con người.

Không có một định nghĩa chính xác cho dữ liệu lớn. Ban đầu ý tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích được tất cả thông tin. Đó là xuất xứ của các công nghệ xử lý mới như MapReduce của Google và nguồn mở tương đương của nó, Hadoop,

khởi đầu từ Yahoo. Những công nghệ này cho phép ta quản lý những khối lượng dữ liệu lớn hơn nhiều so với trước đây, và quan trọng là không cần đưa dữ liệu vào các hàng ngăn nắp hoặc các bảng cơ sở dữ liệu cổ điển. Các công nghệ nghiền dữ liệu khác, bỏ qua các cấu trúc phân cấp và đồng nhất cứng nhắc cổ điển, cũng ở trong tầm ngắm. Đồng thời, do các công ty Internet có thể thu thập được vô số dữ liệu quý giá và có động cơ kinh tế lớn để khai thác chúng, nên các công ty này trở thành người sử dụng hàng đầu của các công nghệ xử lý hiện đại nhất, vượt qua các công ty truyền thống, đôi khi có tới hàng chục năm kinh nghiệm nhiều hơn.

Một cách để suy nghĩ về vấn đề ngày hôm nay - và cũng là cách chúng tôi thực hiện trong cuốn sách này - là: dữ liệu lớn đề cập tới những thứ người ta có thể làm với một quy mô lớn mà không thể làm với một quy mô nhỏ hơn, để trích xuất những hiểu biết mới hoặc tạo ra những dạng giá trị mới, theo những cách thức có thể làm thay đổi các thị trường, các tổ chức, mối quan hệ giữa các công dân và các chính phủ, và hơn thế nữa.

Nhưng đó chỉ là bước khởi đầu. Thời đại của dữ liệu lớn thách thức cách chúng ta sống và tương tác với thế giới. Nổi bật nhất, xã hội sẽ phải cắt giảm một số nỗi ám ảnh của nó về quan hệ nhân quả để đổi lấy mối tương quan đơn giản, không biết tại sao mà chỉ biết cái gì. Điều đó làm đổ vỡ hàng thế kỷ các tập quán đã được thiết lập và thách thức hiểu biết cơ bản nhất của chúng ta về việc làm thế nào để đưa ra được quyết định và hiểu được thực tế.

Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành nạn nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng Silicon: sau khi được tiếp đón trên trang đầu của các tạp chí và tại các hội nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất nhiều công ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng cả thái độ say mê và nguyền rủa đều hiểu lầm một cách khá sâu tầm quan trọng của những gì đang xảy ra. Đúng như kính thiên văn tạo điều kiện cho chúng ta hiểu biết được vũ trụ và kính hiển vi cho phép chúng ta hiểu biết được vi trùng, các kỹ thuật mới để thu thập và phân tích những tập hợp lớn dữ liệu sẽ giúp chúng ta tìm ra ý nghĩa của thế giới theo những cách thức mà chúng ta mới chỉ vừa bắt đầu ưa thích. Trong cuốn sách này, chúng tôi không hẳn là những kẻ truyền giáo của dữ liệu lớn mà chỉ là những người đưa tin. Và, một lần nữa xin nhấn mạnh, cuộc cách mạng thật sự không phải ở những chiếc máy tính toán dữ liệu mà ở chính dữ liệu và cách ta sử dụng chúng.

Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey (SDSS - Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140 tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu tương đương như thế.

Những số lượng vô cùng to lớn như vậy cũng có thể được tìm thấy ngay xung quanh chúng ta. Khi các nhà khoa học lần đầu giải mã gen người vào năm 2003, họ đã mất một thập kỷ làm việc miệt mài để xác định trình tự cho ba tỷ cặp cơ sở. Bây giờ, sau một thập kỷ, một thiết bị đơn lẻ cũng có thể xác định trình tự cho số lượng DNA như vậy chỉ trong một ngày. Trong ngành tài chính, khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên các thị trường chứng khoán Mỹ, trong số đó khoảng hai phần ba được giao dịch bằng các thuật toán máy tính dựa trên các mô hình toán học xử lý hàng núi dữ liệu để dự đoán lợi nhuận trong khi cố gắng giảm thiểu rủi ro.

Các công ty Internet đặc biệt bị tràn ngập. Google xử lý hơn 24 peta (10 mũ 15) byte dữ liệu mỗi ngày, một khối lượng gấp hàng ngàn lần tất cả các ấn phẩm trong Thư viện Quốc hội Mỹ. Facebook, một công ty không hề tồn tại một thập kỷ trước, nhận hơn 10 triệu ảnh mới được tải lên mỗi giờ. Các thành viên Facebook nhấp nút “like” hoặc gửi lời bình luận gần ba tỷ lần mỗi ngày, tạo một dấu vết số để công ty có thể “đào xới” nhằm biết được các sở thích của người sử dụng. Trong khi đó, 800 triệu người sử dụng dịch vụ Youtube của Google tải lên hơn một giờ video mỗi giây. Thành viên của mạng Twitter tăng khoảng 200 phần trăm mỗi năm và đến năm 2012 đã có hơn 400 triệu tweet mỗi ngày.

Từ khoa học tới y tế, từ ngân hàng tới Internet, các lĩnh vực có thể khác nhau, nhưng cùng nhau chúng đều có một câu chuyện tương tự: số lượng dữ liệu trong thế giới đang tăng rất nhanh, vượt sức không chỉ những chiếc máy tính mà cả trí tưởng tượng của chúng ta.

Nhiều người đã thử đưa ra một con số thực tế về lượng thông tin xung quanh chúng ta và tính toán xem nó tăng như thế nào. Họ đã có những mức độ thành công khác nhau bởi họ đo lường những thứ khác nhau.. Một trong những nghiên cứu toàn diện hơn được Martin Hilbert của Trường Truyền thông và Báo chí Annenberg thuộc Đại học Nam California thực hiện. Ông đã nỗ lực đưa ra một con số cho

mọi thứ đã từng được sản xuất, lưu trữ và truyền tải. Chúng không chỉ bao gồm sách, tranh, email, ảnh, nhạc, và phim (cả dạng analog và digital), mà còn có trò chơi điện tử, cuộc gọi điện thoại, thậm chí các hệ thống điều hướng xe và thư gửi qua bưu điện. Ông cũng bao gồm các phương tiện truyền thông phát sóng như truyền hình và radio, dựa trên tiếp cận khán giả.

Theo ước lượng của Hilbert, hơn 300 exa (10 mũ 18) byte dữ liệu lưu trữ đã tồn tại vào năm 2007. Để dễ hình dung ý nghĩa của nó, thử nghĩ thế này. Một bộ phim dài ở dạng kỹ thuật số có thể được nén vào một tập tin 1 giga byte. Một exa byte là 1 tỷ gi ga byte. Tóm lại là vô cùng nhiều. Điều thú vị là năm 2007 chỉ khoảng 7 phần trăm dữ liệu ở dạng analog (giấy, sách, ảnh in, vân vân). Phần còn lại là ở dạng digital - kỹ thuật số. Nhưng mới gần đây, bức tranh đã rất khác. Mặc dù những ý tưởng của cuộc “cách mạng thông tin” và “thời đại kỹ thuật số” đã xuất hiện từ những năm 1960, chúng mới chỉ trở thành hiện thực ở vài khía cạnh. Tới tận năm 2000, mới chỉ có một phần tư thông tin lưu trữ của thế giới được số hóa. Ba phần tư còn lại vẫn ở trên giấy, phim, đĩa nhựa, băng từ, và những thứ tương tự.

Lượng thông tin kỹ thuật số lúc đó chưa nhiều - một điều thật kém cỏi với những ai lướt mạng và mua sách trực tuyến suốt thời gian dài. (Thực tế, vào năm 1986, khoảng 40 phần trăm sức mạnh tính toán thông dụng của thế giới là ở dạng những chiếc máy tính bỏ túi, lớn hơn sức mạnh của tất cả các máy tính cá nhân tại thời điểm đó.) Nhưng vì dữ liệu kỹ thuật số phát triển rất nhanh - cứ hơn ba năm lại tăng gấp đôi, theo Hilbert - nên tình hình đã nhanh chóng tự đảo ngược. Thông tin analog, ngược lại, không hề tăng. Do vậy vào năm 2013 lượng thông tin lưu trữ trong thế giới ước lượng khoảng 1.200 exa byte, trong đó chưa đến 2 phần trăm là phi kỹ thuật số.

Chẳng có cách nào phù hợp để hình dung kích thước như vậy của dữ liệu là có ý nghĩa gì. Nếu tất cả được in thành sách, chúng có thể phủ kín bề mặt của nước Mỹ với chiều dày 52 lớp. Nếu được ghi vào CD-ROM và xếp chồng lên nhau, chúng có thể tạo thành 5 cột vươn cao tới mặt trăng. Vào thế kỷ thứ ba trước Công nguyên, khi Ptolemy II của Ai Cập cố gắng lưu trữ một bản của mỗi tác phẩm từng được viết ra, Thư viện lớn của Alexandria đã tượng trưng cho toàn bộ tri thức của thế giới. Trận lũ lớn kỹ thuật số hiện đang quét qua trái đất tương đương với việc cung cấp cho mỗi người sống trên trái đất hôm nay 320 lần nhiều hơn thông tin như ước lượng đã được lưu trữ ở Thư viện Alexandria.

Mọi thứ thật sự được tăng tốc. Lượng thông tin lưu trữ tăng nhanh hơn gấp bốn lần so với kinh tế thế giới, trong khi sức mạnh xử lý của máy tính tăng nhanh hơn gấp chín lần. Không ngạc nhiên khi người ta than phiền tình trạng quá tải thông tin. Ai cũng bị tác động bởi những thay đổi này.

Hãy nhìn một cách dài hạn, bằng cách so sánh trận lũ dữ liệu hiện tại với cuộc cách mạng thông tin trước đây, cách mạng in sách của Gutenberg được phát minh khoảng năm 1439. Trong năm mươi năm từ 1453 tới 1503 khoảng 8 triệu cuốn sách đã được in, theo nhà sử học Elizabeth Eisenstein. số lượng đó được xem là nhiều hơn tất cả những gì các thầy thông giáo đã chép ra kể từ lúc thiết lập nên Constantinople khoảng 1.200 năm trước. Nói cách khác, phải mất năm mươi năm để khối lượng thông tin tăng gấp đôi ở Âu châu, so với khoảng mỗi ba năm hiện nay.

Sự tăng trưởng này có ý nghĩa gì? Peter Norvig, một chuyên gia trí tuệ nhân tạo tại Google, thích nghĩ về nó với một sự tương tự về hình ảnh. Ông yêu cầu chúng tôi trước hết xem xét con ngựa mang tính biểu tượng từ các hình vẽ hang động ở Lascaux, Pháp, từ thời Paleolithic khoảng 17 ngàn năm trước. Sau đó nghĩ tới một bức ảnh của một con ngựa - hoặc tốt hơn là những phác họa của Pablo Picasso, trông không khác mấy các hình vẽ hang động. Thực tế, khi Picasso được cho xem các hình vẽ Lascaux, từ thời đó ông đã hài hước rằng: “Chúng ta đã không phát minh ra được thứ gì cả”.

Những lời của Picasso đúng ở một mức độ, nhưng không đúng ở một mức độ khác. Hãy nhớ lại bức ảnh chụp con ngựa. Trong khi phải mất nhiều thời gian để vẽ hình một con ngựa, bây giờ sự miêu tả một con ngựa có thể được thực hiện nhanh hơn nhiều với nhiếp ảnh. Đó là sự thay đổi, nhưng có thể đó không phải là thứ quan trọng nhất, bởi về cơ bản nó vẫn thế: hình ảnh của một con ngựa. Nhưng bây giờ, Norvig yêu cầu thu hình của một con ngựa và tăng tốc độ lên tới 24 khung hình mỗi giây. Sự thay đổi lượng đã tạo ra một thay đổi chất. Một bộ phim khác một cách cơ bản với một bức ảnh tĩnh. Với dữ liệu lớn cũng vậy: bằng cách thay đổi số lượng, chúng ta thay đổi bản chất.

Hãy xét một sự tương tự từ công nghệ nano - nơi mà mọi thứ trở nên nhỏ đi, chứ không lớn lên. Nguyên lý phía sau của công nghệ nano là khi đạt tới mức phân tử, các tính chất vật lý có thể thay đổi. Hiểu biết những đặc tính mới này có nghĩa là ta có thể sắp đặt để vật chất làm những thứ mà trước đây không thể làm được. Thí dụ, tại quy mô nano, kim loại có thể mềm dẻo hơn và gốm sứ có thể căng ra được. Ngược lại, khi tăng quy mô của dữ liệu, chúng ta có thể thực hiên được những thứ mới mà không thể nào thực hiện được khi chỉ làm việc với những số lượng nhỏ hơn.

Đôi khi những khó khăn mà chúng ta đang sống cùng thực ra chỉ là những chức năng của quy mô mà chúng ta hoạt động trong đó, và điều này cũng tương tự cho tất cả mọi thứ. Hãy xét một sự tương tự thứ ba, lại cũng từ các ngành khoa học. Đối với con người, định luật vật lý quan trọng nhất là lực hấp dẫn: nó ngự trị trên tất cả những gì chúng ta làm. Nhưng đối với những côn trùng nhỏ xíu, trọng lực hầu như vô nghĩa. Đối với một số loài như nhện nước, định luật vật lý có tác động với chúng chính là sức căng bề mặt, cho phép chúng đi qua một cái ao mà không chìm xuống.

Với thông tin, cũng như với vật lý, kích thước là quan trọng. Do đó, Google có thể xác định được sự lây lan của bệnh cúm chính xác như các dữ liệu chính thức dựa trên việc bệnh nhân thực sự tới gặp bác sĩ. Google có thể làm điều này bằng cách kết hợp hàng trăm tỷ từ khóa tìm kiếm - và nó có thể đưa ra một câu trả lời gần như trong thời gian thực, nhanh hơn nhiều các nguồn chính thức. Tương tự như vậy, Farecast của Etzioni có thể dự đoán sự biến động giá của một chiếc vé máy bay và do đó chuyển quyền lực kinh tế đáng kể vào tay người tiêu dùng. Nhưng cả hai chỉ có thể làm tốt như vậy bằng cách phân tích hàng trăm tỷ điểm dữ liệu.

Hai ví dụ trên cho thấy tầm quan trọng về khoa học và xã hội của dữ liệu lớn cũng như mức độ mà dữ liệu lớn có thể trở thành một nguồn giá trị kinh tế. Chúng đánh dấu hai cách thức mà thế giới dữ

liệu lớn đã sẵn sàng để cải tổ tất cả mọi thứ, từ các doanh nghiệp và các ngành khoa học tới chăm sóc sức khỏe, chính phủ, giáo dục, kinh tế, nhân văn, và mọi khía cạnh khác của xã hội.

Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu lớn, chúng ta dựa vào nó hàng ngày. Bộ lọc thu rác được thiết kế để tự động thích ứng khi các loại email rác thay đổi: phần mềm không thể được lập trình để biết ngăn chặn “via6ra” hoặc vô số các biến thể của nó. Các trang web hẹn hò ghép các cặp trên cơ sở các thuộc tính tương quan thế nào với những cặp đã được ghép thành công trước đó. Tính năng “tự động sửa lỗi” trong điện thoại thông minh theo dấu các thao tác của chúng ta và bổ sung thêm những từ mới vào từ điển chính tả của nó dựa trên những gì chúng ta nhập vào. Tuy nhiên, những ứng dụng này mới chỉ là sự bắt đầu. Từ những chiếc xe hơi có thể phát hiện khi nào cần đi hướng khác hoặc phanh, đến máy tính Watson của IBM đánh bại con người trong trò chơi truyền hình Jeopardy!, cách tiếp cận này sẽ cải tạo nhiều khía cạnh của thế giới chúng ta đang sống.

Tại cốt lõi của nó, dữ liệu lớn là về các dự đoán. Mặc dù nó được mô tả như một phần của ngành khoa học máy tính được gọi là trí tuệ nhân tạo, và cụ thể hơn, một lĩnh vực được gọi là học qua máy, việc đặc trưng hóa này gây nhầm lẫn. Dữ liệu lớn không phải là về việc cố gắng “dạy” một máy tính “nghĩ”

giống như con người. Thay vào đó, nó là về việc áp dụng toán học với số lượng lớn dữ liệu để suy ra xác suất: khả năng một email là thư rác; các ký tự gõ “teh” đáng lẽ phải là “the”; quỹ đạo và vận tốc của một người lái xe cho phép anh ta qua được phố đúng thời gian. Điều quan trọng là các hệ thống này thao tác tốt bởi chúng được nạp với rất nhiều dữ liệu để làm cơ sở cho các dự đoán của chúng. Hơn nữa, hệ thống được thiết kế để tự cải thiện theo thời gian, bằng cách giữ một nhãn (tab) về các tín hiệu và mẫu tốt nhất để tìm kiếm khi có thêm dữ liệu được đua vào.

Trong tương lai - và có thể sớm hơn chúng ta nghĩ - nhiều khía cạnh của cuộc sống sẽ được tăng cường hoặc thay thế bằng những hệ thống máy tính, những khía cạnh mà hôm nay là phạm vi hoạt động duy nhất của sự phán xét con người. Không chỉ việc lái xe hoặc mai mối, mà cả những việc phức tạp hơn. Rốt cuộc, Amazon có thể giới thiệu được cuốn sách lý tưởng, Google có thể xếp hạng được trang web phù hợp nhất, Facebook biết được sở thích của chúng ta, và Linkedln tiên đoán được người mà chúng ta biết. Cũng những công nghệ này sẽ được áp dụng cho chẩn đoán bệnh, đề xuất phương pháp điều trị, thậm chí có thể xác định “tội phạm” trước khi hắn thực sự phạm tội. Cũng giống như Internet hoàn toàn thay đổi thế giới bằng cách thêm truyền thông vào máy tính, dữ liệu lớn sẽ thay đổi các khía cạnh cơ bản của cuộc sống bằng cách cho nó một kích thước định lượng chưa hề có trước đây.

Viết bình luận: