Vietnam Software Development Blog: AI

Showing posts with label AI. Show all posts

Series: Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm: Phần 3

Như đã đề cập trong phần 2 của series “phân tích crime pattern bằng chỉ số trần”. Trong phần 3 này chúng tôi sẽ giới thiệu một phương pháp thường thấy khác trong việc phân tích crime pattern nhằm mục đích phòng chống tội phạm, đó là “phân tích vị trí bằng bản đồ hóa tội phạm.” (Geographic Proximity/ Crime Mapping)

Phần 3: phân tích vị trí bằng bản đồ hóa tội phạm

Phương pháp bản đồ hóa tội phạm này thường được sử dụng để tạo một bản đồ của các hoạt động phạm tội theo từng loại tội phạm hoặc những điểm chung nổi bật, sau đó tiến hành tìm kiếm các điểm nóng (hotspot) về tội phạm theo vị trí diễn ra. Phương pháp này CHỈ thích hợp cho các loại crime pattern có khả năng gom cụm theo vị trí địa lý. Do nhiều crime pattern có thể bao gồm các vụ án không có liên quan nhiều về vị trí địa lý, chính vì vậy nên cũng giống như phương pháp sử dụng chỉ số trần, chúng ta không thể chỉ sử dụng một mình phương pháp này để nắm bắt được toàn bộ các crime pattern mà phải kết hợp nó cùng các phương pháp khác nhằm gia tăng độ hiệu quả trong việc phân tích và phòng chống tội phạm.

Hình trên là một bản đồ các vụ đột nhập nhà riêng để trộm cắp. Bằng phương pháp phân tích thủ công, cảnh sát đã khoanh vùng được 3 crime pattern #1, #2 và #3. Tuy nhiên nếu áp dụng phương pháp bản đồ hóa tội phạm (tự động) trong tình huống này thì crime pattern #2 và #3 sẽ dễ dàng bị bỏ qua nếu chương trình tự động sử dụng các tham số không thích hợp (do #2 có vị trí bao quanh hồ, khoảng cách giữa các vụ án khá xa nhau; #3 thì các vụ án xảy ra trên cùng tuyến đường nhưng vị trí cũng cách xa và phân bố không đều). Chính vì thế trong quá trình sử dụng phương pháp này thì việc xác định các tham số và áp dụng các luật tự động là rất quan trọng.

Có khá nhiều các nghiên cứu về tình trạng lặp lại của các vụ phạm tội theo từng khu vực, các dữ liệu thống kê cho thấy nếu một ngôi nhà bị trộm đột nhập, thì xác suất một căn nhà khác gần đó cũng bị trộm viếng thăm trong vòng 2 tuần tới sẽ tăng lên đáng kể. Điều này là vì thủ phạm đã quen thuộc với đường xá quanh đó, cách lựa chọn mục tiêu và tẩu thoát ra sao chẳng hạn.

Một số ý kiến cho rằng chúng ta có thể vẽ một vòng tròn xung quanh địa điểm vừa xảy ra trộm, khu vực đó chính là khu vực sẽ có khả năng xảy ra trộm cao trong tương lai gần. Tuy nhiên điều này không có nhiều tính thực tiễn lắm, các bạn có thể tưởng tượng đến trường hợp một căn nhà gần biển bị đột nhập, chúng ta không thể vẽ một vòng tròn xung quanh rồi cử vài cảnh sát ra biển đề phòng cá mập bẻ khóa ăn trộm thuyền được? Một trường hợp khác là các con đường song song và gần nhau, chúng nó có thể ở trong cùng phạm vi vòng tròn vừa vẽ, tuy đường chim bay cực ngắn nhưng ở đời thực muốn di chuyển từ đường này sang đường kia chúng ta phải đi qua một quãng đường vòng cực dài. Chính vì vậy việc phân tích chỉ dựa trên một điểm là không hợp lý.

Theo một hướng khác thì thủ phạm (trộm cướp…) khi gây án thường là ở những khu vực mà chúng đã biết (tỉ lệ gây án ở nơi xa lạ vẫn có nhưng chỉ là thiểu số). Việc xác định vị trí để gây án là thông qua các hoạt động thường ngày bình thường, chúng vẫn tham gia giao thông, di chuyển từ địa điểm này sang địa điểm kia…Bằng việc làm như thế, chúng có thể tìm ra những vị trí tiềm năng để dễ dàng gây án rồi tẩu thoát. Những khu vực mà chúng có khả năng tìm ra cơ hội gây án từ các hoạt động thường ngày gọi là awareness space (các khu vực bôi đỏ trong hình dưới).

Dĩ nhiên các khu vực này chính là những con đường trong thực tế. Những con đường có càng nhiều awereness space, những con đường đông đúc người qua lại, thường sẽ có tỉ lệ tội phạm cao hơn. Vậy chúng ta sẽ tiến hành phân tích vị trí bằng cách dựng các vụ phạm tội lên một bản đồ đường gọi là Betweenness.

Ý tưởng của việc dựng Betweenness là:

Đưa toàn bộ các vụ án cùng loại lên bản đồ khu vực, mỗi vụ được xem như một điểm.
Chọn một cặp điểm bắt đầu và kết thúc, tìm đường đi ngắn nhất giữa cặp điểm này trên bản đồ.
Con đường nào trên bản đồ được đường ngắn nhất giữa một cặp điểm đi qua thì tăng Betweenness của con đường đó lên 1.
Duyệt tương tự toàn bộ các cặp điểm.

Như hình phía trên các bạn có thể thấy phần đường đỏ nhất là phần có Betweenness lớn nhất, hay như nãy giờ tôi đã đề cập đến, chính là đoạn đường có khả năng lớn nhất xảy ra các tội phạm tương tự trong tương lai gần. Làm thế nào để chứng minh và ủng hộ cho lí thuyết này là đúng? Mời các bạn đến với một bản đồ Betweenness được dựng lên từ Big Data về tội phạm cướp giật, ẩu đả và trộm cắp xe ở khu Camden thuộc London, Anh.

Phía tay phải là bản đồ Betweenness được dựng lên từ Big Data tội phạm của sở cảnh sát Camden các đoạn được tô xanh lá và đỏ là những khu vực có Betweenness cao. Bản đồ bên tay trái là những vụ phạm tội xảy ra được thông báo cho cảnh sát qua đầu số 999 (đầu số khẩn cấp ở Anh) được dựng lên một thời gian sau khi bản đồ Betweenness được xây dựng. Các bạn có thể dễ dàng nhận ra phần lớn các vụ phạm tội xảy ra nằm ngay trên hoặc rất gần các tuyến đường có Betweenness cao.

Một số nghiên cứu khác ủng hộ cho Betweenness như Porta et al “Street centrality and densities of retail and services in Bologna, Italy”,… Các bạn có thể tham khảo thêm.

Như vậy, sử dụng Betweenness trong việc bản đồ hóa tội phạm là khá tốt để dự đoán những hoạt động phạm pháp. Mặt khác, chúng ta còn có thể kết hợp kĩ thuật này với các kĩ thuật phân cụm và xác định điểm nóng (hotspot) để tăng thêm độ chính xác và cụ thể cho công tác dự đoán phòng ngừa tội phạm.

Trong phần tiếp theo của series chúng tôi sẽ giới thiệu tiếp cho các bạn về việc sử dụng kĩ thuật phân cụm cho Big Data về tội phạm như thế nào, mời các bạn đón xem.

Series: Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm: Phần 2

Phần 2 trong series “Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm” sẽ chia sẻ về việc phân tích crime pattern bằng chỉ số trần.

Trong bài đầu tiên chúng tôi đã đề cập đến các hướng đi chính trong việc sử dụng Big Data để phát hiện và phòng chống tội phạm. Trong phần 2 này chúng tôi sẽ đi vào một trend chính là phòng chống và dự đoán tội phạm với Big Data sử dụng phương pháp phân tích crime pattern (từ này dịch ra tiếng Việt thì chuối chết nên để vậy)

Người ta thường dùng 3 phương pháp sau để phân tích crime pattern là:

Trong phần này, chúng ta sẽ đi vào phương pháp thứ nhất – Phát hiện dị biệt sử dụng việc phân tích chỉ số trần

Với phương pháp này thì điều kiện tiên kiết phải có là một lượng dữ liệu tội phạm đủ lớn (big data khoảng 6 năm trở lên để đạt được hiệu quả tốt). Việc sử dụng phương pháp này có mục đích chính là tìm ra crime pattern ẩn dựa trên mốc thời gian hoặc địa điểm gây án. Nếu phát hiện được pattern ẩn theo địa điểm gây án thì sẽ kết hợp với phương pháp phân tích vị trí bằng bản đồ hóa tội phạm để đưa ra kết quả tốt nhất.

Phân tích chỉ số trần (threshold) đơn giản là dùng phương pháp thống kê cho big data để xác định được khi nào hoặc ở đâu mà tội ác diễn ra “cao hơn đáng kể so với những thời gian khác hoặc địa điểm khác”. Một kĩ thuật thường được sử dụng cho việc này là ĐỘ LỆCH CHUẨN (STANDARD DEVIATION). Công thức là:

Trong đó ∑ là tính tổng, là giá trị của một data set, là trung bình cộng của các data set, và là số các điểm dữ liệu.

Ví dụ đơn giản về áp dụng độ lệch chuẩn cho Big Data như sau:

Giả sử chúng tôi đã có được một bộ Big Data về tội phạm đột nhập vào nhà để trộm cắp trên 4 quận địa bàn Đà Nẵng (Hải Châu, Thanh Khê, Sơn Trà, Ngũ Hành Sơn) trong vòng 5 năm từ 2012 đến 2016. Để bắt đầu phân tích chúng tôi sẽ chuẩn bị và tổ chức dữ liệu theo các thuộc tính là địa điểm và thời gian. Sau đó tiến hành tính toán độ lệch chuẩn cho năm hiện tại.

Đầu tiên chúng tôi sẽ tính độ lệch chuẩn của quận Hải Châu trong vòng 8 năm (chỉ cho tháng 1). Big Data sau khi được tổ chức sẽ có dạng đơn giản như sau:

Độ lệch chuẩn của quận Hải Châu trong THÁNG 01 trong vòng 8 năm (2009-2016) sẽ là:

Sau khi đã có độ lệch chuẩn từ dữ liệu quá khứ chúng ta có thể tiến hành so sánh với dữ liệu năm nay bằng cách lấy số vụ của 01/2017 trừ đi số vụ trung bình rồi chia cho độ lệch chuẩn.

Tiếp tục với các quận còn lại, ta có thể có một bảng lệch chuẩn đơn giản như sau:

Đột nhập trộm cắp tại 4 quận Đà Nẵng trong tháng 01/2017

Nhiều nghiên cứu đã chỉ ra trong điều kiện phân bố bình thường, ngẫu nhiên thì sẽ có khoảng 68% các biến số (ở đây là số vụ trộm) sẽ rơi vào khoảng -0.5 tới +0.5 so với độ lệch chuẩn TB; 95% sẽ rơi vào khoảng -1 tới +1; đến 99.7% sẽ rơi vào khoảng -1.5 đến + 1.5. Như vậy khi áp dụng vào đời thực, ta có thể sử dụng các trạng thái sau cho tình hình trộm cắp:

“Lạnh” – các vụ phạm tội ít hơn 2 SD so với TB

“Mát” – các vụ phạm tội ít hơn từ 1 đến 2 SD so với TB

“Bình thường” – các vụ phạm tội từ ít hơn 1 SD đến nhiều hơn 1 SD so với TB

“Ấm” – các vụ phạm tội nhiều hơn từ 1 đến 2 SD so với TB

“Nóng” – các vụ phạm tội nhiều hơn 2 SD so với TB

Bảng lệch chuẩn trên chỉ dành cho tháng 1, chúng ta sẽ có 12 bảng như vậy cho 12 tháng. Bằng việc sử dụng bảng lệch chuẩn này chúng ta có thể dễ dàng phát hiện ra được những xu hướng tăng giảm của hoạt động tội phạm để có thể tiến hành bố trí resource phòng ngừa thích hợp. Thử nghĩ đến trường hợp nếu trong quý 1, 3 năm liên tiếp từ 2015 đến 2017, tỉ lệ phạm tội ở quận Hải Châu luôn ở trạng thái ấm hoặc nóng thì có khả năng rất cao tỉ lệ này cũng sẽ gia tăng như vậy trong năm tiếp theo. Vì thế việc tăng cường tuần tra, rà quét trong khu vực là cực kì cần thiết để hạn chế tội phạm diễn ra.

Có thể các bạn sẽ thấy dự đoán này khá đơn giản và sơ sài nhưng đừng quên ở đây chúng ta chỉ sử dụng duy nhất một thuộc tính thời gian của Big Data tội phạm. Nếu có thể tìm ra những phương pháp kết hợp những thuộc tính khác như địa điểm (sẽ nói trong phần sau), khoảng thời gian diễn ra, tình trạng xung quanh,… thì chúng ta có thể có những suy đoán và cảnh báo chính xác và cụ thể hơn nhiều. Với một lượng lớn dữ liệu từ Big Data chúng ta có thể giới hạn phạm vi dự đoán ở một loại tội phạm hay một khu vực nhỏ (một phường nào đó của quận Hải Châu chẳng hạn) thì việc phân bổ nguồn lực và phân tích cảnh báo sẽ càng hiệu quả hơn nữa.

Một ứng dụng đang dùng phương pháp phân tích crime pattern là PREDPOL, một phần mềm dự đoán thời gian và địa điểm tội phạm sẽ xảy ra, hiện đang được sử dụng bởi sở cảnh sát Los Angeles, USA; PREDPOL chỉ sử dụng 3 thuộc tính là: loại tội phạm, địa điểm phạm tội và thời gian cụ thể mà phần mềm này đã giúp sở cảnh sát LA ngăn chặn hơn 20% số tội phạm được dự đoán trong 3 năm trở lại đây.

Trong phần này chúng tôi đã giới thiệu cho các bạn một phương pháp là sử dụng độ lệch trần để phân tích lượng tội phạm tăng giảm nhằm dự đoán xu hướng tội phạm sẽ diễn ra trong tương lai gần. Trong phần tiếp theo chúng tôi sẽ tiếp tục với một phương pháp khác trong việc phân tích crime pattern là “phân tích vị trí bằng bản đồ hóa tội phạm”. Mời các bạn đón xem.

Series: Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm: Phần 1

Phần 1 trong series “Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm” sẽ chia sẻ về giai đoạn chuẩn bị dữ liệu, hướng dẫn sử dụng và các lưu ý.

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường.

Phần I: Chuẩn bị dữ liệu, hướng sử dụng và các lưu ý

Trong loạt bài viết này, chúng tôi muốn giới thiệu đến các bạn việc sử dụng Big Data trong phân tích hành vi tội phạm cũng như dự đoán, phát hiện và ngăn chặn tội phạm như thế nào.

Nên nhớ rằng số lượng cảnh sát là có hạn, việc phân bổ giữa cảnh sát tuần tra và cảnh sát thường trực hợp lí là cực kì quan trọng để đảm bảo cả hệ thống hoạt động hiệu quả.

Mỗi cục cảnh sát thường sẽ lưu lại một số lượng rất lớn những báo cáo tội phạm qua từng năm. Việc phân tích các dữ liệu này có thể giúp chúng ta:

Phòng chống tội phạm: bao gồm việc dự đoán khả năng xảy ra tội ác (địa điểm và thời gian), tỉ lệ xuất hiện một loại tội phạm trong một khoảng thời gian nhất định, các vấn đề có thể phát sinh sau các sự kiện khách quan,…
Truy bắt tội phạm: sử dụng Big Data để phân tích tâm lí và hành vi tội phạm, tìm hiểu cách thức tội ác được thực hiện, nhận dạng tội phạm, thiết lập các giả thiết về nghi phạm,…

Đây là hai hướng đi chính hiện nay trong việc áp dụng Big Data trong phân tích và phát hiện tội phạm. Điều thú vị là cả hai hướng đi này đều áp dụng một phương thức phân tích khá tương đồng. Mục đích chính của phương thức này là để xây dựng một giải pháp phân tích mà cảnh sát có thể sử dụng để phát hiện những manh mối liên quan giữa các vụ án, thời gian, địa điểm và các manh mối chi tiết, phương thức gồm các bước như sau:

1.Xử lí trước

Dữ liệu thường được xử lí trước tùy thuộc vào mục đích sử dụng. Trong một báo cáo vụ án thường sẽ có những thuộc tính chính như sau:

Dữ liệu sẽ được xử lí trước và chọn lọc lại những thuộc tính cần thiết cho quá trình sử dụng, ví dụ trong việc xác định các khu vực nóng về tỉ lệ phạm tội thì người phân tích thường quan tâm đến các thuộc tính 1,3,4. Để xác định tâm lí tội phạm thì thường quan tâm đến các thuộc tính 1, 2, 3, 5, 7, 8, 9. Để xác định các phương thức tội phạm thường sử dụng thì lại quan tâm hơn đến 1, 2, 3, 4, 5, 9 chẳng hạn.

2. Phân tích + Tinh chỉnh & Nhận biết.

Phòng chống tội phạm: Dự đoán tội phạm gây án ở địa điểm, thời gian, hoàn cảnh nào đó. Sử dụng các thuật toán tìm đường di chuyển chung, các thuật toán phân lớp để xác định điểm nóng phạm tội,…

*Một sơ đồ đường di chuyển chung của tội phạm sau khi phân tích*

Truy bắt tội phạm: Xác định cách thức gây án chung, thuật toán suy đoán các thủ thuật tương tự để rút gọn phạm vi nghi phạm, thuật toán định dạng khuôn mặt tội phạm,…

Chúng tôi sẽ nói chi tiết về từng thuật toán nổi bật được sử dụng trong các phần tiếp theo của series.

3. Báo cáo & Đánh giá

Việc báo cáo và đánh giá này chủ yếu nhằm xác định tính chính xác và tin cậy của các mô hình dự đoán cũng như các quyết định được đưa ra trong quá trình truy bắt.

Mức độ tin cậy phần lớn được định nghĩa CHỦ QUAN (ví dụ dự đoán khoảng 60% sẽ xuất hiện tội phạm ở khu vực A vào 18:00 chủ nhật có thể được coi là không đủ tin cậy hoặc đủ tin cậy tùy theo người có thẩm quyền quyết định)

Việc sử dụng các công cụ dự đoán và phân tích dựa trên Big Data hiện đã được áp dụng cho nhiều thành phố ở Mĩ, Anh, Trung Quốc,… và thu được kết quả rất khả quan.

Trong các bài tiếp theo chúng tôi sẽ đi lần lượt vào hai hướng đi chính trong phát hiện tội phạm với Big Data là phòng chống tội phạm và truy bắt tội phạm. Ở mỗi hướng đi này chúng tôi sẽ đưa ra một thuật toán thông dụng nhất, mục đích và điểm mạnh/ điểm yếu của các thuật toán đó. Mời các bạn đón xem.

Vượt Trội Hơn Của Google, Trợ Lý Thoại Của Alibaba Đang Được Sử Dụng Trong Hàng Triệu Cuộc Gọi

Từ khi được giới thiệu ở Hội thảo I/O đầu năm nay, Duplex, trợ lý thoại AI trong dịch vụ chăm sóc khách hàng của Google, thực sự gây ấn tượng mạnh nhưng Alibaba vượt trội hơn hẳn khi đã được sử dụng rộng rãi với nhiều khách hàng.

Tại Hội thảo Neural Information and Technology – nghiên cứu AI thường niên – Alibaba cho biết, hệ thống trợ lý của mình đã được sử dụng cho hàng triệu cuộc gọi với khách hàng của công ty Cainiao, một công ty logistics của chính Alibaba.

Jin Rong, chuyên gia nghiên cứu công nghệ và Machine Intelligence của Alibaba đã trình diễn khả năng của trợ lý AI do Alibaba phát triển bằng một cuộc hội thoại được ghi âm trước đó:

CSKH: Xin chào, Tôi là trợ lý thoại của Cainiao. Tôi là –
Khách hàng: Alo?
C: Vâng, quý khách có một gói hàng được đặt lịch chuyển đến vào buổi sáng tới số 588 đường Culture West. Có tiện cho quý khách không ạ?
K: Xin hỏi ai đấy ạ?
C: Tôi là trợ lý thoại của Cainiao. Tôi muốn xác định lại việc chuyển gói hàng của quý khách vào buổi sáng đến số 588 đường Culture West. Quý khách có thể nhận hàng được không ạ?
K: Tôi lại không có nhà vào buổi sáng.
C: Vậy quý khách có thể cho tôi một địa chỉ khác để gửi hàng đến không ạ?

Điều ấn tượng ở đây là AI đã điều chỉnh được 3 nhân tố hội thoại mà những phần mềm thông thường gặp khó khăn: sự gián đoạn ngay từ đầu, hội thoại phi tuyến khi khách hàng không thể trả lời được câu hỏi và phải hỏi lại “Ai đấy?; và nghĩa ẩn – khách hàng không đặc biệt nói không với câu hỏi nhưng AI hiểu được ý ám chỉ của câu “Tôi không có ở nhà sáng nay”.

Trang Review Technology nhận định trợ lý thoại AI của Alibaba vượt trội hơn Duplex, dựa trên những cuộc gọi thông thường mà Google đã demo. Hằng ngày công ty Trung Quốc này nhận được 50,000 cuộc gọi, tạo nên nguồn dữ liệu khổng lồ để huấn luyện, giúp hệ thống này của công ty đi trước các đối thủ khác.

Alibaba cho biết họ dự định mở rộng trợ lý thoại AI vào mảng dịch vụ đặt đồ ăn, một avatar ảo trả lời tất cả các câu hỏi về sản phẩm công ty, và thêm một chatbot trả giá. Thế nhưng, vấn đề ở đây có quá nhiều công nghệ AI, điều đáng lo ngại là những công việc truyền thống do con người làm sẽ bị ảnh hưởng đến thế nào.

Theo Techspot.

Ai Thông Minh Hơn: Google Assistant, Alexa hay Siri?

Trong công cuộc chạy đua AI giữa các ông lớn, trợ lý ảo của nhà nào chiếm vị thế ưu việt hơn?

Khi nhắc đến trợ lý ảo họ thường nói tới của Amazon và Google, thế còn Siri thì sao? Có nhiều ý kiến cho rằng Siri không thông minh như trợ lý ảo của hai đối thủ trên thế nhưng một báo cáo gần đây của Loup Ventures lại cho thấy Siri không hề ngu ngốc như ta nghĩ.

Bài kiểm tra của Loup Ventures gồm 800 câu hỏi đưa cho các trợ lý ảo để xem chúng có hiểu đúng không. Google Assistant đứng nhất với 87,9% câu trả lời đúng. Siri về nhì với 74,6%. Đuổi theo sát sao là Amazon Alexa ở mức 72,5% và đáng buồn cho Microsoft Cortana xếp chót khi chỉ có 63,4% câu trả lời đúng.

Điều đáng ngạc nhiên là khả năng hiểu của Google Assistant toàn vẹn 100% và với 0,4% chênh lệch, 3 đối thủ còn lại chia nhau đều ở các vị trí: Siri thứ 2 (99,6%), Cortana thứ 3 (99,4%) còn cuối bảng là Alexa (99%). Vậy có thể nói các trợ lý ảo đều có sự cải thiện về xử lý ngôn ngữ cũng như nhận dạng giọng nói, chúng chỉ mắc lỗi với những câu hỏi chung như hiểu sai về danh từ riêng hay từ địa phương.

Dựa trên 4 kiểu câu hỏi: thông tin địa phương, thương mại, điều hướng và thông tin chung. Đối với những phản hồi đúng, Siri đạt điểm thấp nhất trong nhóm “thông tin” – nói đơn giản là Siri không thể trả lời chính xác các câu hỏi chung, chẳng hạn như “Ai diễn trong vở kịch Twins tối nay?”. Một điểm trừ lớn trong bài “test IQ” của Siri.

“Trong khoảng thời gian 12 tháng, Google Home và Cortana đã cải thiện thêm được 7%, Echo thêm được 9%, Siri (chỉ trong 9 tháng) đã tăng lên đến 22% về các câu hỏi được trả lời chính xác”, Loup Ventures viết trong báo cáo của mình.

Để tăng khả năng cạnh tranh AI với Google, Amazon và Microsoft, Apple đã thuê giám đốc điều hành AI John Giannandrea từ Google và hào phóng thăng chức cho ông vào đội ngũ điều hành của Apple, báo cáo trực tiếp cho Tim Cook. Giannandrea rất có thể sẽ giúp Apple vượt qua được Google.

Nếu điều đó xảy ra, Apple sẽ cần thay đổi nhận thức mà chúng ta có về Siri và đưa ra các chiến dịch quảng bá cho sự thông minh này rộng rãi hơn. Siri của hiện tại đã được cải thiện đáng kể trong một hành trình dài 9 tháng và qua đó chúng ta hoàn toàn có thể hy vọng vào một Siri hoàn thiện, ưu việt hơn trong tương lai.

Theo CNBC.

Cái Nhìn Cận Cảnh Về Ba Công Nghệ AI Phổ Biến Nhất Và Cách Sử Dụng Chúng

Từ robotic process automation đến các thuật toán machine learning, rất nhiều công ty có ảnh hưởng lớn nhất hiện nay đang phát triển các công nghệ Artificial Intelligence (AI) để thúc đẩy kết quả kinh doanh. Trong khi hầu hết những người ra quyết định nhận thức được các cơ hội kinh doanh nhờ các công nghệ đổi mới hiện nay, lại có rất nhiều người khác không chuẩn bị được cả những điều đơn giản vì họ thất bại trong việc hiểu công nghệ này.

AI bao gồm một lượng đa dạng các công nghệ và tool, trong đó có những công nghệ đã rất thân thuộc nhưng cũng có nhiều cái rất mới mẻ. Tuy nhiên, không có gì là rõ ràng: các nhà kinh doanh đang nghĩ sâu hơn làm thế nào để sử dụng tốt AI trong năm 2018.

Theo International Data Corporation (IDC), sự bành trướng của AI sẽ nhảy vọt từ con số 8 tỉ USD năm 2016 lên hơn 47 tỷ USD vào năm 2020. Dưới đây là một cái nhìn cận cảnh hơn về ba công nghệ AI phổ biến nhất và cách các công ty đổi mới sử dụng chúng.

Machine learning

Khi các công ty nói về việc sử dụng công nghệ AI, đa số đề cập đến machine learning (ML). Là thương hiệu điện toán AI phổ biến nhất, ML liên quan đến các thuật toán đào tạo để thực hiện nhiệm vụ bằng cách học từ các lịch sử dữ liệu hơn là từ các lệnh của con người. Mặt khác, máy tính học mà không cần lập trình rõ ràng. Từ các start-up nhỏ đến các thương hiệu lớn đều sử dụng ML để truy cập, sắp xếp và ra quyết định về dữ liệu theo một các hiệu quả và hướng đến kết quả tốt hơn.

Tại SAP, machine learning là một thành phần thiết yếu của chiến lược content marketing. Công ty phần mềm sử dụng ML để phân tích nội dung nhằm cung cấp trải nghiệm phù hợp hơn cho khách hàng của họ. Thuật toán ML sắp xếp các bài báo được xuất bản theo các chủ đề, giúp SAP cá nhân hóa sự tham gia của khách hàng thông qua nội dung.

Mục tiêu là giúp người đọc tìm thấy nhiều bài viết phù hợp hơn dựa trên hành vi và lịch sử tìm kiếm cá nhân của họ. Đối với SAP, công nghệ hỗ trợ ML cho phép họ vượt xa các công cụ đề xuất tiêu chuẩn. Ý tưởng của công cụ này là những thông báo và chủ đề thu hút đúng đối tượng với trải nghiệm sáng tạo phù hợp vào đúng thời điểm.

Computer Vision

Computer vision là một nhánh của AI liên quan đến cách máy tính bắt chước thị giác của con người và khả năng của con người để xem và giải thích các hình ảnh kỹ thuật số. Thông qua nhận dạng mẫu và xử lý hình ảnh, computer vision hiểu được nội dung của hình ảnh và nó có tác động sâu sắc đến cách chúng ta trải nghiệm thế giới xung quanh.

Amazon sử dụng công nghệ computer vision để cải thiện việc mua sắm trực tiếp cho khách hàng thông qua trải nghiệm Amazon Go. Không phải xếp hàng và không có kiểm tra, khách hàng chỉ cần sử dụng ứng dụng Amazon Go để vào cửa hàng, chọn các mặt hàng họ muốn và rời đi. Bằng cách nào? Máy ảnh chụp ảnh của khách hàng khi họ mua sắm. Sử dụng computer vision, deep learning và hợp nhất cảm biến, Amazon theo dõi các mặt hàng trong một giỏ hàng ảo, đưa đúng vào tài khoản Amazon.

Hình thức bán lẻ này mới chỉ là khởi đầu, vì computer vision cũng có thể sẽ mở ra cánh cửa cho các thành phố thông minh nơi các công nghệ tầm nhìn tiên tiến có thể giúp giảm số vụ va chạm và thương tích trên đường.

Robotic Process Automation

Phần mềm điều khiển AI, như Robotic Process Automation (RPA), đã trở thành một lợi thế cạnh tranh cho các công ty trên toàn thế giới. Các công nghệ kỹ thuật số như RPA cải thiện hiệu quả, giảm sai lầm và thậm chí phá vỡ cách thức các công ty làm thủ công trải nghiệm khách hàng.

Ngân hàng lớn nhất Nam Phi, Ngân hàng Standard, số hóa quy trình thông qua RPA, ML và tự động hóa nhận thức, tăng hiệu quả trong hoạt động, công việc tại văn phòng. Do đó, họ đã giảm thời gian onboarding cho khách hàng từ 20 ngày xuống còn 5 phút.

Phần mềm RPA mang đến cho Standard Bank sự linh hoạt và khả năng đối phó với các thách thức của dịch vụ tài chính trong khi vẫn theo kịp các ngành công nghiệp khác. Công nghệ RPA đã giảm những sai lầm và biến công việc thủ công thành một điều thú vị, đồng thời mang lại trải nghiệm phong phú hơn cho khách hàng của họ.

Tổng kết

Khách hàng ngày nay mong đợi những trải nghiệm kỹ thuật số, không ma sát. Các công nghệ AI giúp nâng cao khả năng diễn giải và hành động trên lượng dữ liệu khổng lồ mà các công ty có sẵn ngày nay. Các doanh nghiệp thông minh, giống như những doanh nghiệp được thảo luận ở trên, sử dụng các công cụ này để tối ưu hóa tiếp thị nội dung, nâng cao hiệu quả hoạt động và mang lại trải nghiệm khách hàng đã giành giải thưởng.

Nguồn: towardsdatascience.com

Gartner Công Bố Top 10 Xu Hướng Công Nghệ Chiến Lược Trong Năm 2019

Hàng năm Gartner sẽ công bố một danh sách tổng hợp các xu hướng công nghệ mà CIO và các giám đốc công nghệ cần chú ý đến. Dưới đây là 10 xu hướng chiến lược công nghệ cho 2019.

Năm nay, danh sách này được giới thiệu bởi Nick Jones, Gartner VP kiêm Distinguished Analyst.

1. Tự động hoá:

Autonomous Things dùng để chỉ các phương tiện, máy bay không người lái hoặc robot sử dụng AI để tự động hóa các chức năng trước đây được thực hiện bởi con người. Đến năm 2021, Gartner dự đoán rằng 10% phương tiện mới sẽ có khả năng lái tự động, so với chưa đến 1% trong năm 2017. Mặc dù việc tự động hoàn toàn vẫn còn cách xa, ông Jones cho biết tương lai của những ous thingssẽ là nhóm hợp tác những thứ thông minh tương tác tự nhiên với môi trường xung quanh, con người và nhau

2. Augmented Analytics:

Augmented Analytics tập trung vào cách machine learning có thể tăng cường khả năng Analytics của chúng ta trong việc chuẩn bị dữ liệu, tạo thông tin chi tiết và trực quan hóa. Điều này sẽ loại bỏ sự cần thiết của các nhà khoa học dữ liệu trong nhiều tình huống, cho phép các tổ chức thay thế họ bằng các nhà khoa học dữ liệu công dân (citizen data scientists): Những người không có chuyên môn về thống kê / phân tích với sự trợ giúp của AI, vẫn có thể rút ra những hiểu biết tiên đoán từ dữ liệu. Theo ông Jones, năm 2020, số lượng các nhà khoa học dữ liệu công dân sẽ tăng nhanh gấp năm lần so với số lượng các nhà khoa học dữ liệu chuyên gia.

3. Phát triển theo hướng AI:

Có một nhu cầu ngày càng tăng đối với các công cụ hỗ trợ AI dễ sử dụng cho các nhà phát triển ứng dụng thay vì các nhà khoa học dữ liệu. Đến năm 2022, Gartner dự đoán rằng 40% các dự án phát triển ứng dụng mới sẽ bao gồm các nhà đồng phát triển AI trong các nhóm của họ. Hơn nữa, có cơ hội ứng dụng AI để tự động hóa quá trình phát triển. Cuối cùng, các AI tiên tiến sẽ tự động hóa nhiều khía cạnh của phát triển ứng dụng và tạo ra một thời đại mới, nơi những người không chuyên, và cuối cùng là AI, sẽ có thể tạo ra các ứng dụng.

4. Digital Twins:

Digital Twin là một đại diện kỹ thuật số phản ánh một đối tượng, quá trình hoặc hệ thống thực tế. Đến năm 2020, Gartner ước tính sẽ có hơn 20 tỷ cảm biến và thiết bị đầu cuối được kết nối và digital twin sẽ tồn tại cho hàng tỷ thứ. Ý tưởng về sinh đôi kỹ thuật số không phải là mới mặc dù công nghệ sao chép và mô phỏng hiện nay bao gồm các công nghệ kỹ thuật số mới nổi. Trong tương lai gần, ông Jones tin rằng digital twin của cơ thể con người sẽ đóng góp đáng kể cho khoa học y tế trong khi digital twin của các tòa nhà / thành phố sẽ là thành phần chính trong việc tạo ra không gian thông minh.

5. Empowered Edge:

Edge Computing mô tả một phương pháp trong đó xử lý, thu thập và phân phối thông tin không còn tập trung mà được đặt gần các thiết bị đầu cuối xung quanh chúng ta. Trong năm năm tới, Gartner dự đoán khả năng Edge Computing sẽ được tăng cường đáng kể nhờ AI, tăng lưu trữ và xử lý nhưng quan trọng nhất là 5G. Tuy nhiên, ông Jones cảnh báo rằng quản lý thiết bị sẽ là rào cản lớn cho việc triển khai Edge Computing cho các tổ chức thiếu chuẩn bị.

6. Trải nghiệm nhập vai:

Từ các nền tảng đàm thoại (ví dụ: Siri) đến AR / VR, trải nghiệm nhập vai là cách công nghệ làm mờ ranh giới giữa thế giới vật lý và kỹ thuật số. Với tiêu dùng thúc đẩy kỳ vọng UX / UI, khách hàng hiện đang đòi hỏi những trải nghiệm tuyệt vời mà Gartner dự đoán 70% doanh nghiệp sẽ thử nghiệm vào năm 2020. Cuối cùng, cách mọi người tương tác và nhận thức thế giới kỹ thuật số sẽ chuyển xu hướng này sang điểm mà trải nghiệm sẽ kết nối mọi người với hàng trăm thiết bị Edge từ máy tính, điện thoại đến ô tô và ảnh hưởng đến mọi giác quan của con người. Chúng sẽ hợp nhất thành một trải nghiệm hoàn toàn nhập vai, trong đó các không gian xung quanh chúng ta sẽ có hiệu lực “trở thành máy tính”.

7. Blockchain:

Bằng cách cho phép decentralized trust, cung cấp tính minh bạch và giảm ma sát trên các hệ sinh thái kinh doanh, Gartner tin rằng blockchain sẽ tạo ra 3,1 nghìn tỷ đô la giá trị kinh doanh vào năm 2030. Ví dụ về ứng dụng blockchain bao gồm lưu giữ hồ sơ bảo mật cho sức khỏe điện tử, giao dịch vàng kỹ thuật số hoặc thị trường không có giấy phép. Mặc dù công nghệ vẫn chưa được hiểu rõ, nhưng những người chấp nhận sớm như Walmart đã sử dụng các giải pháp “lấy cảm hứng từ blockchain” với quản lý tập trung hơn để cải thiện hiệu quả. Trong 5-6 năm tới, ông Jones dự đoán chúng tôi sẽ có nền tảng blockchain hoàn thiện hơn.

8. Smart Spaces:

Một không gian thông minh là một môi trường vật lý hoặc kỹ thuật số, trong đó con người và các hệ thống hỗ trợ công nghệ tương tác trong một hệ sinh thái ngày càng mở, kết nối, phối hợp và thông minh. Khi công nghệ trở thành một phần tích hợp hơn trong cuộc sống hàng ngày, không gian thông minh sẽ bước vào giai đoạn tăng tốc. Hơn nữa, các xu hướng khác như công nghệ điều khiển AI, edge computing, blockchain và digital twin đang hướng tới xu hướng này khi các giải pháp riêng lẻ trở thành không gian thông minh. Về cơ bản, không gian thông minh đang phát triển như các công nghệ riêng lẻ trước khi cùng nhau hợp tác để tạo ra một môi trường tương tác.

9. Đạo đức và bảo mật trong digital:

Khi thế giới ngày càng trở nên kỹ thuật số với hàng tỷ thiết bị IoT liên tục thu thập dữ liệu của chúng ta, ông Jones tin rằng đạo đức và quyền riêng tư sẽ là một thách thức lớn. Để đưa ra quyết định chính xác, các công ty đa quốc gia cần theo kịp luật bảo mật toàn cầu luôn thay đổi để tuân thủ. Hơn nữa, người tiêu dùng đang đặt các giá trị ngày càng cao về đạo đức và các công ty cần phải chuyển cuộc trò chuyện ra ngoài phạm vi. Chúng ta có tuân thủ luật pháp không? Chúng ta đang làm điều đúng đắn?

10. Tính toán lượng tử:

Tuy điện toán lượng tử dường như vẫn là một khái niệm khoa học viễn tưởng, công nghệ này đang trưởng thành nhanh hơn là chúng ta nhận ra. Các nhà phát triển hiện có thể xây dựng và chạy các ứng dụng điện toán lượng tử thông qua môi trường đám mây và các nhà nghiên cứu gần đây đã chứng minh lợi thế đáng kể của máy tính lượng tử so với máy tính cổ điển. CIO nên bắt đầu theo dõi công nghệ, có thể thấy việc áp dụng đáng kể vào năm 2022 hoặc 2023.

Tóm lại, 10 xu hướng công nghệ hàng đầu năm 2019 của Gartner sẽ không gây ngạc nhiên cho những người đã chú ý. CNTT ngày càng thông minh hơn, tạo ra một web kỹ thuật số thông minh trên các doanh nghiệp và mọi nơi khác, với việc ông Jones khẳng định rằng Không gian thông minh và Quyền riêng tư và Đạo đức sẽ là xu hướng quan trọng nhất. Tuy nhiên, tất cả các xu hướng chiến lược này có thể có lợi ích đáng kể và tiềm năng đột phá trong năm năm tới và nó có lợi trong mọi tổ chức, và chúng ta nên bắt đầu theo dõi chúng.

OpenAI Phải Tạm Đóng Phần Mềm Tạo Văn Bản Vừa Phát Triển Thành Công Vì Quá Thông Minh

Các nhà nghiên cứu tại tổ chức nghiên cứu AI phi lợi nhuận OpenAI chỉ muốn huấn luyện phần mềm tạo văn bản mới của họ dự đoán được từ tiếp theo cần viết trong một câu văn.

Tuy nhiên, phần mềm này đã vượt quá mọi mong đợi của họ, khi nó giỏi nhại lại cách hành văn của con người đến mức các nhà nghiên cứu quyết định nhấn nút ngừng dự án để đánh giá những thiệt hại mà nó có thể gây ra nếu được tung ra thị trường.

Elon Musk đã luôn nói rõ rằng ông tin trí tuệ nhân tạo là “mối đe dọa lớn nhất đối với sự sinh tồn của nhân loại”. Musk là một trong những nhà tài trợ chính của OpenAI và dù ông chỉ giữ vai trò “kép phụ” tại đây, các nhà nghiên cứu của tổ chức dường như cũng cùng chia sẻ những quan ngại với vị tỷ phú về những vấn đề chúng ta có thể gặp phải nếu mở chiếc hộp Pandora. Tuần vừa qua, OpenAI đã chia sẻ một tài liệu về nghiên cứu gần đây nhất của họ liên quan công nghệ tạo văn bản, nhưng lần này, họ không công khai toàn bộ nghiên cứu ra công chúng như thường lệ bởi lo sợ nó có thể bị lạm dụng bởi những kẻ có ý đồ xấu xa. Thay vì tung ra mô hình đã được huấn luyện hoàn chỉnh, OpenAI sẽ tung ra một mô hình nhỏ hơn dành cho các nhà nghiên cứu muốn tự mình thử nghiệm.

Các nhà nghiên cứu đã sử dụng 40GB dữ liệu lấy từ 8 triệu trang web để huấn luyện phần mềm GPT-2. Lượng dữ liệu này lớn gấp 10 lần lượng dữ liệu họ từng dùng để huấn luyện thế hệ GPT đầu tiên. Bộ dữ liệu được thu thập bằng cách lướt mạng xã hội Reddit và chọn những liên kết đến các bài viết nhận được hơn 3 lượt upvote. Khi quá trình huấn luyện hoàn tất, họ phát hiện ra rằng phần mềm có thể nhận vào một phần văn bản và tiếp tục hoàn thành nội dung của đoạn văn bản đó theo độ dài được yêu cầu một cách đầy thuyết phục. Nó gặp một số rắc rối với “những loại nội dung nặng yếu tố kỹ thuật hoặc bí mật, ít người biết”, nhưng đối với các nội dung mang tính trao đổi, phân nửa số nội dung nó tạo ra có tính hợp lý khá cao.

Ví dụ, phần mềm được giao đoạn văn bản sau:

“In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.” (Trong một phát hiện gây sốc, các nhà khoa học đã tìm ra một đàn kỳ lân sống ở một thung lũng xa xôi, chưa từng được khám phá trước đây, ở Dãy Andes. Ngạc nhiên hơn nữa với các nhà nghiên cứu là lũ kỳ lân nói tiếng Anh một cách hoàn hảo).

Dựa trên hai câu đó, GPT-2 đã có thể viết tiếp câu chuyện kỳ lạ này bằng 9 đoạn văn khác theo cách mà nếu không biết, bạn sẽ tin rằng chúng được viết bởi con người. Dưới đây là một số đoạn văn do máy viết:

“The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.

Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.”

(Các nhà khoa học đã đặt tên cho bầy này, theo cái sừng đặc trưng của chúng, là Ovid’s Unicorn. Những con kỳ lân 4 sừng, màu trắng bạc này trước đây chưa từng được khoa học biết đến.

Hiện nay, sau gần 2 thế kỷ, bí ẩn tạo nên hiện tượng kỳ lạ này cuối cùng đã được giải đáp.

Tiến sỹ Jorge Perez, một nhà sinh vật học tiến hóa từ Đại học La Paz và nhiều cộng sự lúc đó đang khám phá Dãy Andes thì tìm thấy một thung lũng nhỏ, không có động vật hay con người. Perez chú ý thấy thung lũng có một suối nước tự nhiên, vây quanh bởi hai đỉnh đá và tuyết bạc).

GPT-2 đặc biệt giỏi trong việc bắt chước văn phong và nội dung của đoạn văn được cung cấp. Tờ Guardian đã có cơ hội thử qua phần mềm và cung cấp cho nó dòng đầu tiên trong cuốn Nineteen Eighty-Four của George Orwell: “It was a bright cold day in April, and the clocks were striking thirteen” (Đó là một ngày trời quang và lạnh tháng tư, và đồng hồ reo lên báo hiệu 13 giờ). Chương trình nhanh chóng nhận biết được văn phong của câu đó và tạo ra một câu chuyện khoa học viễn tưởng của chính nó:

“I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China. I started with Chinese history and history of science.” (Tôi đang trên xe đến nơi làm mới ở Seattle. Tôi nhấn ga, cắm chìa, và để xe chạy. Tôi tưởng tượng một ngày làm việc sẽ ra sao. 100 năm nữa từ lúc này. Vào năm 2045, tôi là giáo viên ở một vài ngôi trường ở vùng hẻo lánh nghèo khổ của Trung Quốc. Tôi dạy lịch sử Trung Quốc và lịch sử khoa học).

Các nhà nghiên cứu của OpenAI phát hiện ra rằng GPT-2 cực kỳ giỏi khi nó được giao những tác vụ mà nó vốn không được thiết kế để thực hiện, như biên dịch và tóm tắt. Trong báo cáo của họ, các nhà nghiên cứu viết rằng họ đơn giản chỉ cần huấn luyện mô hình theo cách phù hợp để nó thực thi những tác vụ ở một mức độ có thể sánh ngang với các mô hình chuyên dụng khác. Sau khi phân tích một câu chuyện ngắn về một cuộc đua Olympic, phần mềm đã có thể trả lời đúng những câu hỏi đơn giản như “Chiều dài cuộc đua là bao nhiêu?” và “Cuộc đua bắt đầu ở đâu?”

Những kết quả cực kỳ xuất sắc nói trên đã khiến các nhà nghiên cứu khiếp sợ. Họ quan ngại rằng công nghệ này sẽ bị lợi dụng để phục vụ cho việc viết tin tức giả. Tờ Guardian đã xuất bản một bản tin giả do phần mềm viết cùng với loạt bài họ viết về nghiên cứu này. Bản tin đó hoàn toàn có thể đọc hiểu tốt và có chứa những lời trích dẫn giả trùng khớp với chủ đề và nghe như thật. Ngữ pháp của bản tin tốt hơn rất nhiều bản tin giả khác mà bạn từng thấy. Và theo nhà báo Alex Hern của tờ The Guardian, phần mềm chỉ mất đúng 15 giây để viết ra bản tin đó.

Những quan ngại khác của các nhà nghiên cứu bao gồm: phần mềm có thể bị lạm dụng để tự động hóa các email lừa đảo, giả mạo người dùng trực tuyến, và tự tạo ra những nội dung quấy rối. Nhưng họ còn tin rằng phần mềm này có rất nhiều ứng dụng có thể mang lại lợi ích cho con người. Ví dụ, nó có thể là một công cụ mạnh mẽ để phát triển các phần mềm nhận dạng giọng nói hay các con bot trả lời khách hàng tốt hơn.

OpenAI dự định thảo luận với cộng đồng nghiên cứu AI về chiến lược tung ra phần mềm này, và họ hi vọng sẽ đưa ra được những quy chuẩn đạo đức nhằm định hướng loại hình nghiên cứu này trong tương lai. Họ cho biết sẽ thảo luận công khai nhiều hơn trong 6 tháng tới.

Trào Lưu 10 Years Challenge Của Facebook Chỉ Là Một Trò Chơi Vô Hại?

Bạn cho rằng, trào lưu #10yearschallenge là một meme vô hại? Nhưng sau khi đọc bài viết này, có thể bạn sẽ muốn suy nghĩ lại.

Nếu bạn sử dụng mạng xã hội, chắc hẳn gần đây có để ý đến một trào lưu ngập tràn Facebook, Instagram, và Twitter của người dùng post ảnh của họ ngày ấy-bây giờ, chủ yếu là từ 10 năm trước và năm nay.

Tác giả bài báo đặt giả thuyết các dữ liệu ảnh này có thể đã bị khai thác để huấn luyện thuật toán nhận diện khuôn mặt trong việc xác định mức độ già hóa và nhận diện tuổi tác. Những người phản đối giả thuyết này cho rằng những bức ảnh đằng nào cũng có trên mạng xã hội trước trào lưu này, các dữ liệu này đã có sẵn, và Facebook đằng nào cũng đã có trong tay tất cả các ảnh đại diện người dùng.

Đương nhiên là vậy, nhưng nhìn theo hướng này thử xem.

Tưởng tượng rằng bạn muốn huấn luyện một thuật toán nhận diện khuôn mặt về các đặc điểm liên quan đến tuổi tác, mà cụ thể hơn, là đặc điểm của sự già hóa (ví dụ, người ta trông ra sao khi họ già đi), bạn sẽ cần một dataset thật lớn và chặt chẽ với rất nhiều các hình ảnh của người khác.

Nếu bạn có trong tay thông tin về thời điểm chụp hai bức ảnh ở một con số cố định – ví dụ, 10 năm đi, thì mọi chuyện sẽ dễ dàng hơn rất nhiều. Hiển nhiên là, bạn có thể khai phá dữ liệu trên Facebook và thu tập ảnh đại diện rồi xem ngày đăng ảnh hay dữ liệu EXIF (Exchangeable Image File Format – dữ liệu thông tin về thời gian chụp, các thiết lập của máy ảnh và có thể là các thông tin về bản quyền của bức ảnh đó). Nhưng tất cả những ảnh đại diện đó vẫn có thể gây ra nhất nhiều thông tin nhiễu.

Điều này là bởi người ta thường không upload ảnh theo trình tự thời gian, và việc người ta để ảnh đại diện là hình chó mèo và nhân vật hoạt hình chứ không phải ảnh bản thân không phải là chuyện hiếm. Hơn nữa, các bức ảnh thường không được đăng tải trùng với ngày nó được chụp. Thông qua trào lưu mới trên Facebook, rất nhiều người đã vô tình cung cấp thêm bối cảnh (“tôi năm 2008 và tôi năm 2018”) cũng như là rất nhiều các thông tin khác, trong một số trường hợp người ta ghi cả nơi ảnh được chụp và được chụp như thế nào. (“2008 tại University of Whatever, chụp bởi Joe; 2018 đi thăm New City cho sự kiện gì gì đó năm nay).

Nói cách khác, nhờ và trào lưu này, ai đó đã có trong tay một dataset rất lớn những bức ảnh của mọi người trong khoảng 10 năm trước và hiện tại, tất cả các bức ảnh này đều đã được giám tuyển vô cùng cẩn thận.

Về phần mình, Facebook phủ nhận nhúng tay vào trào lưu #10YearsChallenge. “Đây là một cái meme do người dùng tự tạo và tự trở nên viral”, người phát ngôn của Facebook cho biết. Nhưng ngay cả khi trào lưu này không phải là một sản phẩm của kỹ thuật tấn công social engineering, vài năm gần đây chúng ta đã chứng kiến rất nhiều những ví dụ về các games tương tác và memes được thiết kế ra để khai thác và thu thập dữ liệu người dùng. Social engineering là hành vi đánh lừa người dùng của hệ thống, nhằm phá vỡ hệ thống an ninh, lấy cắp dữ liệu hoặc tống tiền. Nói một cách khác, một trò lừa đảo rất tinh vi trên Internet.

Nếu ai đó lấy ảnh Facebook của bạn ra để huấn luyện thuật toán nhận dạng khuôn mặt thì có phải là xấu không? Cũng không hẳn, theo một cách nào đó, chuyện này là không thể tránh khỏi. Tuy vậy, điều cần quan tâm hơn ở đây chính là cách chúng ta cần nhìn nhận các tương tác của mình với công nghệ, cẩn trọng hơn với những dữ liệu mà mìnhtạo ra, và cách mà chúng có thể bị sử dụng trên nhiều phương diện.

Vietnam Software Development Blog