Blog

Câu chuyện về Big Data (phần 1)

24/04/2019

NĂM 2009 MỘT VI-RÚT CÚM mới được phát hiện. Kết hợp các yếu tố của các vi-rút gây cúm gà, chủng mới này, được gọi là H1N1, đã lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Một số nhà bình luận đã cảnh báo về một dịch bệnh có quy mô của dịch cúm Tây Ban Nha vào năm 1918, lây nhiễm cho nửa tỷ người và làm chết hàng chục triệu người. Tồi tệ hơn là không hề có vắc-xin nào để chống lại vi-rút mới này. Hy vọng duy nhất của cơ quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết bệnh đã lan tới đâu.

Ở Mỹ, Trung tâm Kiểm soát và Phòng chống Bệnh dịch (CDC) đã yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới. Nhưng bức tranh thật về đại dịch vẫn luôn bị chậm trễ một hoặc hai tuần. Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Việc chuyển tiếp thông tin về các cơ quan trung ương đòi hỏi thời gian, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh dịch lây lan nhanh, hai tuần chậm trễ cũng giống như dài vô tận. Sự chậm trễ này đã hoàn toàn vô hiệu hóa các cơ quan y tế tại những thời điểm gay cấn nhất.

Lúc việc đó xảy ra, vài tuần trước khi vi-rút H1N1 xuất hiện rầm rộ trên các phương tiện truyền thông, các kỹ sư của công ty Internet khổng lồ Google đã đăng một bài đáng chú ý trên tạp chí khoa học Nature. Nó đã tạo một chuyện giật gân trong giới chức y tế và các nhà khoa học máy tính, nhưng ngoài ra thì ít được quan tâm. Các tác giả lý giải Google có thể “dự đoán” sự lây lan của bệnh cúm mùa đông ở Mỹ như thế nào, không chỉ ở mức độ toàn quốc, mà còn chi tiết tới mức vùng và thậm chí tới mức tiểu bang. Google có thể đạt được điều này bằng cách xem xét những gì người sử dụng đã tìm kiếm trên Internet. Bởi Google nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả chúng, nên nó có vô số dữ liệu để phân tích.

Google lấy 50 triệu cụm từ được tìm kiếm phổ biến nhất của người Mỹ và so sánh chúng với dữ liệu của CDC về sự lây lan của bệnh cúm mùa giữa các năm 2003 và 2008. Ý tưởng là để xác định các khu vực bị lây nhiễm vi-rút cúm thông qua những gì người ta tìm kiếm trên Internet, và không ai khác có nhiều dữ liệu, năng lực tính toán và hiểu biết về thống kê như Google.

Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có thể nhằm thu lượm thông tin về cúm - gõ các câu đại loại như “thuốc ho và sốt” - nhưng không phải vậy: họ không biết, và họ đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả những gì hệ thống của họ làm là phát hiện mối tương quan giữa tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm theo thời gian và không gian. Tổng cộng, họ xử lý một lượng đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của 45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán của họ và các số liệu chính thức trên toàn quốc. Giống như CDC, họ có thể cho biết cúm đã lây lan tới đâu, nhưng khác với CDC, họ có thể nói điều đó gần như trong thời gian thực, chứ không phải trễ một hoặc hai tuần.

Do vậy, khi dịch bệnh H1N1 tấn công vào năm 2009, hệ thống của Google đã chứng tỏ là một chỉ báo có ích hơn và nhanh hơn so với các số liệu thống kê của chính phủ thường chậm trễ. Các quan chức y tế đã được trang bị những thông tin có giá trị.

Điều gây ấn tượng là phương pháp của Google không liên quan gì đến việc phân phối gạc miệng hoặc liên hệ với các phòng khám. Thay vào đó, nó được xây dựng trên “dữ liệu lớn” - khả năng của xã hội khai thác thông tin theo những cách thức mới để đưa ra những kiến thức hữu ích hay những sản phẩm và dịch vụ có giá trị đáng kể. Với nó, khi đại dịch kế tiếp xảy ra, thế giới sẽ có sẵn một công cụ tốt hơn để dự đoán và do đó ngăn chặn sự lây lan.

Y tế công chỉ là một lĩnh vực trong đó dữ liệu lớn đang làm nên một sự khác biệt vĩ đại. Nhiều lĩnh vực khác cũng đang được định hình lại bởi dữ liệu lớn. Dịch vụ mua vé máy bay là một thí dụ.

Năm 2003, Oren Etzioni cần bay từ Seattle tới Los Angeles để dự lễ cưới em trai của ông. Nhiều tháng trước đó, ông lên mạng và mua một vé máy bay, tin rằng càng mua sớm, vé càng rẻ. Trên chuyến bay, do tò mò, Etzioni hỏi người ngồi kế bên xem giá vé của ông ta là bao nhiêu và ông ta mua khi nào. Hóa ra ông ta trả thấp hơn nhiều so với Etzioni, mà thậm chí ông ta mới chỉ mua vé gần đây. Khá tức giận, Etzioni hỏi một hành khách khác và một hành khách khác nữa. Hầu hết họ đã trả ít tiền hơn.

Với hầu hết chúng ta, ý nghĩa của cảm giác bị lừa có thể đã tiêu tan khi chúng ta gấp khay bàn ăn trước mặt, dựng thẳng ghế và khóa thắt lưng an toàn. Nhưng Etzioni là một trong những nhà khoa học máy tính hàng đầu của Mỹ. Ông nhìn thế giới như một chuỗi các bài toán dữ-liệu-lớn có thể giải được. Và ông đang làm chủ chúng từ khi là người đầu tiên tốt nghiệp Đại học Harvard về chuyên ngành khoa học máy tính vào năm 1986.

Từ căn phòng của mình tại Đại học Washington, ông đã khỏi xướng những công ty dữ-liệu-lớn trước khi thuật ngữ “dữ liệu lớn” được biết tới. Ông đã

giúp phát triển một trong những công cụ tìm kiếm Web đầu tiên, MetaCrawler, được đưa ra sử dụng vào năm 1994 rồi sau được bán cho InfoSpace, lúc đó là một công ty bất động sản trực tuyến lớn. Ông đã đồng sáng lập Netbot, trang web mua hàng so sánh lớn đầu tiên, sau đó bán nó cho Excite. Ông khởi động công ty làm công cụ trích ý nghĩa từ các văn bản, gọi là ClearForest, sau này được Reuters mua lại.

Trở lại câu chuyện chính, Etzioni quyết tìm ra cách để có thể biết liệu một giá vé ta thấy trên mạng có phải là một giá tốt hay không. Một chỗ ngồi trên máy bay là một thương phẩm: mỗi chỗ về cơ bản là hoàn toàn giống với những chỗ khác trên cùng chuyến bay. Nhưng giá lại rất khác nhau, dựa trên vô số yếu tố mà chủ yếu chỉ chính các hãng bay mới biết.

Etzioni đi đến kết luận ông không cần giải mã ý nghĩa hay nguyên nhân giá cả khác nhau. Thay vào đó, ông đơn giản phải dự đoán liệu giá được báo có khả năng tăng hay giảm trong tương lai. Điều này là khả thi, nếu không nói là dễ. Những gì cần thiết là phân tích tất cả các vé bán cho một tuyến đường và khảo sát các giá phải trả tương quan với số ngày mua trước lúc khởi hành.

Nếu giá trung bình của vé có xu hướng giảm, thì rất nên đợi để mua sau. Nếu giá trung bình có xu hướng tăng, hệ thống sẽ khuyến cáo mua vé ngay

với giá được báo. Nói cách khác, thứ cần thiết là một dạng cải tiến của cuộc điều tra thông tin Etzioni đã thực hiện trên tầng cao 30.000 feet. Chắc chắn đó là một bài toán lớn khác của khoa học máy tính. Nhưng, đó là một bài toán ông có thể giải được. Do vậy Etzioni đã bắt tay vào công việc.

Sử dụng một mẫu gồm 12.000 lượt thống kê giá vé qua “thu lượm” thông tin trong 41 ngày từ một trang web du lịch, Etzioni đã tạo được một mô hình dự báo giúp hành khách tiết kiệm chi phí. Mô hình không có hiểu biết về câu hỏi tại sao, mà chỉ biết về câu hỏi cái gì. Nó không biết bất kỳ tham biến nào tham gia vào những quyết định về giá của các hãng hàng không, chẳng hạn số chỗ ngồi còn chưa bán được, mùa vụ, hay một loại thu xếp lưu trú qua đêm thứ Bảy có thể làm giảm giá vé. Hệ thống dự đoán dựa vào những gì đã biết: xác suất có được từ những chuyến bay khác. “Mua hay không mua, đó là câu hỏi”, Etzioni ngẫm nghĩ. Thế nên ông đặt tên rất thích hợp cho dự án là Hamlet.

Dự án nhỏ đã phát triển thành một doanh nghiệp khởi động được hỗ trợ bằng vốn mạo hiểm mang tên Farecast. Bằng cách dự báo giá của một vé máy bay rất có thể tăng hoặc giảm, và tăng hoặc giảm bao nhiêu, Farecast trao quyền cho người tiêu dùng lựa chọn khi nào thì nhấp vào nút “mua”. Nó trang bị cho họ thông tin mà trước đây họ chưa bao giờ truy cập được. Đề cao tính tự minh bạch, Fare

cast cho điểm độ tin cậy đối với dự báo của chính nó và cũng thông báo số điểm này cho người sử dụng.

Để hoạt động, hệ thống cần rất nhiều dữ liệu. Nhằm cải thiện hiệu suất của hệ thống, Etzioni đã nhúng tay vào một trong các cơ sở dữ liệu đăng ký chỗ của ngành hàng không. Với thông tin này, hệ thống có thể đưa ra các dự báo dựa vào từng chỗ ngồi trên từng chuyến bay cho hầu hết các tuyến bay của hàng không thương mại Mỹ trong một năm. Farecast xử lý gần 200 tỷ bản ghi giá vé máy bay để đưa ra các dự báo của nó. Làm như vậy, Farecast đã tiết kiệm được cho người tiêu dùng bộn tiền.

Với mái tóc màu nâu cát, nụ cười chân thành, và nét đẹp hiền hậu, Etzinoni hầu như không có vẻ là loại người có thể phủ nhận hàng triệu đôla doanh thu tiềm năng của ngành hàng không. Trong thực tế, ông đặt tầm ngắm của mình còn xa hơn thế. Năm 2008 ông đặt kế hoạch áp dụng phương pháp này cho các sản phẩm khác như phòng khách sạn, vé nghe hòa nhạc, và xe hơi cũ: tất cả mọi thứ với sự khác biệt rất ít về sản phẩm, có độ biến động giá cả cao, và có rất nhiều dữ liệu. Nhưng trước khi ông có thể triển khai được các kế hoạch của mình, Microsoft đã tới gõ cửa, mua Farecast với khoảng $110 triệu, và tích hợp nó vào công cụ tìm kiếm Bing. Tới năm 2012 hệ thống đã khuyến cáo đúng

tới 75% và tiết kiệm cho hành khách trung bình $50 mỗi vé.

Farecast là hình ảnh thu nhỏ của một công ty dữ-liệu-lớn và một thí dụ cho thấy thế giới hướng tới đâu. Etzioni không thể thiết lập công ty năm hoặc mười năm sớm hơn. “Đó là điều bất khả”, ông nói. Lượng sức mạnh tính toán và lưu trữ cần thiết đã là quá lớn. Nhưng, mặc dù những thay đổi về công nghệ là yếu tố quan trọng giúp cho nó trở thành khả thi, một số điều quan trọng hơn cũng thay đổi - những điều tinh tế. Đã có sự thay đổi trong suy nghĩ về việc dữ liệu có thể được sử dụng như thế nào.

Dữ liệu không còn được xem là tĩnh hoặc cũ, tính hữu ích của dữ liệu kết thúc một khi mục tiêu mà vì nó dữ liệu được thu thập đã đạt được, chẳng hạn sau khi máy bay đã hạ cánh (hoặc trong trường hợp của Google, khi một câu hỏi tìm kiếm đã được xử lý). Thay vào đó, dữ liệu trở thành một nguyên liệu thô của doanh nghiệp, một đầu vào kinh tế quan trọng, được sử dụng để tạo ra một dạng mới của giá trị kinh tế. Thực tế, với suy nghĩ đúng đắn, dữ liệu có thể được dùng lại một cách thông minh để trở thành một suối nguồn của thông tin và những dịch vụ mới. Dữ liệu có thể tiết lộ bí mật cho những ai có sự khiêm nhường, sự sẵn lòng và công cụ để lắng nghe.

 

Viết bình luận: