Vietnam Software Development Blog: Series: Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm: Phần 2

Phần 2 trong series “Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm” sẽ chia sẻ về việc phân tích crime pattern bằng chỉ số trần.

Trong bài đầu tiên chúng tôi đã đề cập đến các hướng đi chính trong việc sử dụng Big Data để phát hiện và phòng chống tội phạm. Trong phần 2 này chúng tôi sẽ đi vào một trend chính là phòng chống và dự đoán tội phạm với Big Data sử dụng phương pháp phân tích crime pattern (từ này dịch ra tiếng Việt thì chuối chết nên để vậy)

Người ta thường dùng 3 phương pháp sau để phân tích crime pattern là:

Trong phần này, chúng ta sẽ đi vào phương pháp thứ nhất – Phát hiện dị biệt sử dụng việc phân tích chỉ số trần

Với phương pháp này thì điều kiện tiên kiết phải có là một lượng dữ liệu tội phạm đủ lớn (big data khoảng 6 năm trở lên để đạt được hiệu quả tốt). Việc sử dụng phương pháp này có mục đích chính là tìm ra crime pattern ẩn dựa trên mốc thời gian hoặc địa điểm gây án. Nếu phát hiện được pattern ẩn theo địa điểm gây án thì sẽ kết hợp với phương pháp phân tích vị trí bằng bản đồ hóa tội phạm để đưa ra kết quả tốt nhất.

Phân tích chỉ số trần (threshold) đơn giản là dùng phương pháp thống kê cho big data để xác định được khi nào hoặc ở đâu mà tội ác diễn ra “cao hơn đáng kể so với những thời gian khác hoặc địa điểm khác”. Một kĩ thuật thường được sử dụng cho việc này là ĐỘ LỆCH CHUẨN (STANDARD DEVIATION). Công thức là:

Trong đó ∑ là tính tổng, là giá trị của một data set, là trung bình cộng của các data set, và là số các điểm dữ liệu.

Ví dụ đơn giản về áp dụng độ lệch chuẩn cho Big Data như sau:

Giả sử chúng tôi đã có được một bộ Big Data về tội phạm đột nhập vào nhà để trộm cắp trên 4 quận địa bàn Đà Nẵng (Hải Châu, Thanh Khê, Sơn Trà, Ngũ Hành Sơn) trong vòng 5 năm từ 2012 đến 2016. Để bắt đầu phân tích chúng tôi sẽ chuẩn bị và tổ chức dữ liệu theo các thuộc tính là địa điểm và thời gian. Sau đó tiến hành tính toán độ lệch chuẩn cho năm hiện tại.

Đầu tiên chúng tôi sẽ tính độ lệch chuẩn của quận Hải Châu trong vòng 8 năm (chỉ cho tháng 1). Big Data sau khi được tổ chức sẽ có dạng đơn giản như sau:

Độ lệch chuẩn của quận Hải Châu trong THÁNG 01 trong vòng 8 năm (2009-2016) sẽ là:

Sau khi đã có độ lệch chuẩn từ dữ liệu quá khứ chúng ta có thể tiến hành so sánh với dữ liệu năm nay bằng cách lấy số vụ của 01/2017 trừ đi số vụ trung bình rồi chia cho độ lệch chuẩn.

Tiếp tục với các quận còn lại, ta có thể có một bảng lệch chuẩn đơn giản như sau:

Đột nhập trộm cắp tại 4 quận Đà Nẵng trong tháng 01/2017

Nhiều nghiên cứu đã chỉ ra trong điều kiện phân bố bình thường, ngẫu nhiên thì sẽ có khoảng 68% các biến số (ở đây là số vụ trộm) sẽ rơi vào khoảng -0.5 tới +0.5 so với độ lệch chuẩn TB; 95% sẽ rơi vào khoảng -1 tới +1; đến 99.7% sẽ rơi vào khoảng -1.5 đến + 1.5. Như vậy khi áp dụng vào đời thực, ta có thể sử dụng các trạng thái sau cho tình hình trộm cắp:

“Lạnh” – các vụ phạm tội ít hơn 2 SD so với TB

“Mát” – các vụ phạm tội ít hơn từ 1 đến 2 SD so với TB

“Bình thường” – các vụ phạm tội từ ít hơn 1 SD đến nhiều hơn 1 SD so với TB

“Ấm” – các vụ phạm tội nhiều hơn từ 1 đến 2 SD so với TB

“Nóng” – các vụ phạm tội nhiều hơn 2 SD so với TB

Bảng lệch chuẩn trên chỉ dành cho tháng 1, chúng ta sẽ có 12 bảng như vậy cho 12 tháng. Bằng việc sử dụng bảng lệch chuẩn này chúng ta có thể dễ dàng phát hiện ra được những xu hướng tăng giảm của hoạt động tội phạm để có thể tiến hành bố trí resource phòng ngừa thích hợp. Thử nghĩ đến trường hợp nếu trong quý 1, 3 năm liên tiếp từ 2015 đến 2017, tỉ lệ phạm tội ở quận Hải Châu luôn ở trạng thái ấm hoặc nóng thì có khả năng rất cao tỉ lệ này cũng sẽ gia tăng như vậy trong năm tiếp theo. Vì thế việc tăng cường tuần tra, rà quét trong khu vực là cực kì cần thiết để hạn chế tội phạm diễn ra.

Có thể các bạn sẽ thấy dự đoán này khá đơn giản và sơ sài nhưng đừng quên ở đây chúng ta chỉ sử dụng duy nhất một thuộc tính thời gian của Big Data tội phạm. Nếu có thể tìm ra những phương pháp kết hợp những thuộc tính khác như địa điểm (sẽ nói trong phần sau), khoảng thời gian diễn ra, tình trạng xung quanh,… thì chúng ta có thể có những suy đoán và cảnh báo chính xác và cụ thể hơn nhiều. Với một lượng lớn dữ liệu từ Big Data chúng ta có thể giới hạn phạm vi dự đoán ở một loại tội phạm hay một khu vực nhỏ (một phường nào đó của quận Hải Châu chẳng hạn) thì việc phân bổ nguồn lực và phân tích cảnh báo sẽ càng hiệu quả hơn nữa.

Một ứng dụng đang dùng phương pháp phân tích crime pattern là PREDPOL, một phần mềm dự đoán thời gian và địa điểm tội phạm sẽ xảy ra, hiện đang được sử dụng bởi sở cảnh sát Los Angeles, USA; PREDPOL chỉ sử dụng 3 thuộc tính là: loại tội phạm, địa điểm phạm tội và thời gian cụ thể mà phần mềm này đã giúp sở cảnh sát LA ngăn chặn hơn 20% số tội phạm được dự đoán trong 3 năm trở lại đây.

Trong phần này chúng tôi đã giới thiệu cho các bạn một phương pháp là sử dụng độ lệch trần để phân tích lượng tội phạm tăng giảm nhằm dự đoán xu hướng tội phạm sẽ diễn ra trong tương lai gần. Trong phần tiếp theo chúng tôi sẽ tiếp tục với một phương pháp khác trong việc phân tích crime pattern là “phân tích vị trí bằng bản đồ hóa tội phạm”. Mời các bạn đón xem.

Vietnam Software Development Blog

Series: Big Data Trong Việc Phân Tích Và Phát Hiện Tội Phạm: Phần 2

No comments:

Post a Comment

The Ultimate XP Project

Pages

Search This Blog