Ai thu thập dữ liệu lớn và tại sao?

Vào mùa thu năm 2019, một vụ bê bối đã nổ ra với dịch vụ Thẻ Apple: khi đăng ký, dịch vụ này cấp các giới hạn tín dụng khác nhau cho nam và nữ. Ngay cả Steve Wozniak cũng không gặp may:

Một năm trước đó, có thông tin tiết lộ rằng nền tảng Netflix hiển thị cho người dùng các áp phích và đoạn giới thiệu khác nhau, tùy thuộc vào giới tính, độ tuổi và quốc tịch của họ. Vì điều này, dịch vụ đã bị buộc tội phân biệt chủng tộc.

Cuối cùng, Mark Zuckerberg thường xuyên bị khiển trách vì bị Facebook cáo buộc thu thập, bán và thao túng dữ liệu của người dùng. Trong nhiều năm, anh ta bị cáo buộc và thậm chí bị cố gắng thao túng trong cuộc bầu cử ở Mỹ, hỗ trợ các dịch vụ đặc biệt của Nga, kích động hận thù và quan điểm cực đoan, quảng cáo không phù hợp, rò rỉ dữ liệu người dùng, cản trở các cuộc điều tra chống lại những kẻ ấu dâm.

Bài đăng trên Facebook của zuck

Đồng thời, dịch vụ trực tuyến Pornhub hàng năm công bố các báo cáo về loại nội dung khiêu dâm mà những người thuộc các quốc tịch, giới tính và độ tuổi khác nhau đang tìm kiếm. Và vì một số lý do, điều này không làm phiền bất cứ ai. Mặc dù tất cả những câu chuyện này đều giống nhau: trong mỗi câu chuyện, chúng ta đang xử lý dữ liệu lớn, mà trong thế kỷ XNUMX được gọi là “dầu mới”.

dữ liệu lớn là gì

Dữ liệu lớn – chúng cũng là dữ liệu lớn (anh. Dữ liệu lớn) hoặc siêu dữ liệu – là một mảng dữ liệu đến thường xuyên và với khối lượng lớn. Chúng được thu thập, xử lý và phân tích, dẫn đến các mô hình và mẫu rõ ràng.

Một ví dụ nổi bật là dữ liệu từ Máy Va chạm Hadron Lớn, được cung cấp liên tục và với số lượng lớn. Với sự giúp đỡ của họ, các nhà khoa học giải quyết nhiều vấn đề.

Nhưng dữ liệu lớn trên web không chỉ là số liệu thống kê cho nghiên cứu khoa học. Chúng có thể được sử dụng để theo dõi cách người dùng thuộc các nhóm và quốc tịch khác nhau hành xử, họ chú ý đến điều gì và cách họ tương tác với nội dung. Đôi khi, đối với điều này, dữ liệu được thu thập không phải từ một nguồn mà từ nhiều nguồn, so sánh và xác định các mẫu nhất định.

Về tầm quan trọng của dữ liệu lớn trên mạng, họ bắt đầu nói khi thực sự có rất nhiều dữ liệu. Vào đầu năm 2020, thế giới có 4,5 tỷ người dùng Internet, trong đó có 3,8 tỷ người đăng ký mạng xã hội.

Ai có quyền truy cập vào Dữ liệu lớn

Theo các cuộc khảo sát, hơn một nửa số quốc gia của chúng tôi tin rằng dữ liệu của họ trên mạng được sử dụng bởi các bên thứ ba. Đồng thời, nhiều người đăng thông tin cá nhân, ảnh, thậm chí cả số điện thoại lên mạng xã hội và ứng dụng.

Nó cần được giải thích ở đây: người đầu tiên là chính người dùng, nơi đặt dữ liệu của nó trên bất kỳ tài nguyên hoặc ứng dụng nào. Đồng thời, anh ấy đồng ý (đánh dấu vào thỏa thuận) với việc xử lý dữ liệu này bên thứ hai - nghĩa là chủ sở hữu tài nguyên. Bên thứ ba là những người mà chủ sở hữu tài nguyên có thể chuyển hoặc bán dữ liệu người dùng. Thường thì điều này được viết trong thỏa thuận người dùng, nhưng không phải lúc nào cũng vậy.

Bên thứ ba là các cơ quan chính phủ, tin tặc hoặc công ty mua dữ liệu vì mục đích thương mại. Cái trước có thể lấy dữ liệu theo quyết định của tòa án hoặc cơ quan cấp trên. Tất nhiên, tin tặc không sử dụng bất kỳ quyền nào – chúng chỉ tấn công cơ sở dữ liệu được lưu trữ trên máy chủ. Các công ty (theo luật) chỉ có thể truy cập dữ liệu nếu chính bạn đã cho phép họ – bằng cách đánh dấu vào ô bên dưới thỏa thuận. Nếu không, nó là bất hợp pháp.

Tại sao các công ty sử dụng Dữ liệu lớn?

Dữ liệu lớn trong lĩnh vực thương mại đã được sử dụng trong nhiều thập kỷ, chỉ là nó không dữ dội như bây giờ. Ví dụ, đây là các bản ghi từ camera giám sát, dữ liệu từ bộ điều hướng GPS hoặc thanh toán trực tuyến. Giờ đây, với sự phát triển của mạng xã hội, dịch vụ và ứng dụng trực tuyến, tất cả những điều này có thể được kết nối và có được bức tranh hoàn chỉnh nhất: khách hàng tiềm năng sống ở đâu, họ thích xem gì, họ đi nghỉ ở đâu và họ có loại xe nào.

Từ các ví dụ trên, rõ ràng là với sự trợ giúp của dữ liệu lớn, các công ty trước hết muốn nhắm mục tiêu quảng cáo. Nghĩa là chỉ cung cấp các sản phẩm, dịch vụ hoặc tùy chọn riêng lẻ cho đúng đối tượng và thậm chí tùy chỉnh sản phẩm cho một người dùng cụ thể. Ngoài ra, quảng cáo trên Facebook và các nền tảng lớn khác ngày càng trở nên đắt đỏ và việc hiển thị quảng cáo đó cho mọi người liên tiếp hoàn toàn không mang lại lợi nhuận.

Thông tin về khách hàng tiềm năng từ các nguồn mở được các công ty bảo hiểm, phòng khám tư nhân và nhà tuyển dụng tích cực sử dụng. Ví dụ, công ty thứ nhất có thể thay đổi các điều khoản bảo hiểm nếu họ thấy rằng bạn thường tìm kiếm thông tin về một số loại bệnh hoặc thuốc men, đồng thời nhà tuyển dụng có thể đánh giá xem bạn có dễ xung đột và có hành vi chống đối xã hội hay không.

Nhưng có một nhiệm vụ quan trọng khác đang gặp khó khăn trong những năm gần đây: tiếp cận gần với đối tượng dung môi nhất. Điều này không dễ thực hiện, mặc dù nhiệm vụ được hỗ trợ đáng kể bởi các dịch vụ thanh toán và kiểm tra điện tử thông qua một OFD (nhà điều hành dữ liệu tài chính). Để tiếp cận càng gần càng tốt, các công ty thậm chí còn cố gắng theo dõi và “nuôi dưỡng” những khách hàng tiềm năng từ thời thơ ấu.: thông qua trò chơi trực tuyến, đồ chơi tương tác và dịch vụ giáo dục.

Học như thế nào?

Cơ hội lớn nhất để thu thập dữ liệu là từ các tập đoàn toàn cầu sở hữu nhiều dịch vụ cùng một lúc. Facebook hiện có hơn 2,5 tỷ người dùng hoạt động. Đồng thời, công ty cũng sở hữu các dịch vụ khác: Instagram – hơn 1 tỷ, WhatsApp – hơn 2 tỷ và các dịch vụ khác.

Nhưng Google thậm chí còn có ảnh hưởng lớn hơn: Gmail được sử dụng bởi 1,5 tỷ người trên thế giới, 2,5 tỷ người khác sử dụng HĐH di động Android, hơn 2 tỷ người sử dụng YouTube. Và đó là chưa tính các ứng dụng tìm kiếm Google và Google Maps, cửa hàng Google Play và trình duyệt Chrome. Việc còn lại là thắt chặt ngân hàng trực tuyến của bạn – và Google sẽ có thể biết mọi thứ về bạn theo đúng nghĩa đen. Nhân tiện, Yandex đã đi trước một bước về vấn đề này, nhưng nó chỉ bao gồm đối tượng nói tiếng Nga.

👍 Trước hết, các công ty quan tâm đến những gì chúng tôi đăng và thích trên mạng xã hội. Ví dụ: nếu ngân hàng thấy rằng bạn đã kết hôn và tích cực thích các cô gái trên Instagram hoặc Tinder, bạn có nhiều khả năng sẽ phê duyệt khoản vay tiêu dùng. Và thế chấp cho gia đình đã biến mất.

Điều quan trọng nữa là bạn nhấp vào quảng cáo nào, tần suất và kết quả ra sao.

(I E Bước tiếp theo là tin nhắn riêng tư: chúng chứa nhiều thông tin hơn. Tin nhắn đã bị rò rỉ trên VKontakte, Facebook, WhatsApp và các ứng dụng nhắn tin tức thời khác. Theo họ, nhân tiện, thật dễ dàng để theo dõi vị trí địa lý tại thời điểm gửi tin nhắn. Chắc chắn bạn đã nhận thấy: khi bạn thảo luận về việc mua thứ gì đó hoặc chỉ đặt bánh pizza với ai đó, quảng cáo có liên quan sẽ ngay lập tức xuất hiện trong nguồn cấp dữ liệu.

🚕 Dữ liệu lớn được sử dụng tích cực và bị “rò rỉ” bởi các dịch vụ giao hàng và taxi. Họ biết nơi bạn sống và làm việc, bạn yêu thích điều gì, thu nhập ước tính của bạn là bao nhiêu. Ví dụ, Uber hiển thị giá cao hơn nếu bạn đang lái xe từ quán bar về nhà và rõ ràng là đã quá liều. Và khi bạn có một loạt các trình tổng hợp khác trên điện thoại của mình, thì ngược lại, họ sẽ cung cấp những cái rẻ hơn.

(I E Có những dịch vụ sử dụng ảnh và video để thu thập càng nhiều thông tin càng tốt. Ví dụ: thư viện thị giác máy tính – Google có một thư viện. Họ quét bạn và môi trường xung quanh bạn để xem kích thước hoặc chiều cao của bạn, nhãn hiệu bạn mặc, loại xe bạn lái, bạn có con nhỏ hay thú cưng hay không.

(I E Những người cung cấp cổng SMS cho ngân hàng để gửi thư có thể theo dõi việc mua hàng của bạn trên thẻ – biết 4 chữ số cuối cùng và một số điện thoại – rồi bán dữ liệu này cho người khác. Do đó tất cả thư rác này với giảm giá và bánh pizza như một món quà.

🤷️️ Cuối cùng, chính chúng tôi đã rò rỉ dữ liệu của mình sang các dịch vụ và ứng dụng bên trái. Hãy nhớ rằng quảng cáo rầm rộ xung quanh Getcontact, khi mọi người đều vui vẻ điền số điện thoại của họ để tìm hiểu xem người khác đã viết như thế nào. Và bây giờ hãy tìm thỏa thuận của họ và đọc nội dung của thỏa thuận đó về việc chuyển dữ liệu của bạn (spoiler: chủ sở hữu có thể chuyển chúng cho bên thứ ba theo quyết định của họ):

Các tập đoàn có thể thu thập thành công và thậm chí bán dữ liệu người dùng trong nhiều năm, cho đến khi xảy ra một vụ kiện – như đã xảy ra với chính Facebook. Và sau đó, vai trò quyết định là do công ty vi phạm GDPR – một luật ở EU hạn chế việc sử dụng dữ liệu nghiêm ngặt hơn nhiều so với luật của Mỹ. Một ví dụ khác gần đây là vụ bê bối chống vi-rút Avast: một trong những dịch vụ phụ của công ty đã thu thập và bán dữ liệu từ 100 đến 400 triệu người dùng.

Nhưng tất cả điều này có bất kỳ lợi thế cho chúng tôi?

Dữ liệu lớn giúp tất cả chúng ta như thế nào?

Vâng, có một mặt tươi sáng quá.

Dữ liệu lớn giúp truy bắt tội phạm và ngăn chặn các cuộc tấn công khủng bố, tìm trẻ em mất tích và bảo vệ chúng khỏi nguy hiểm.

Với sự giúp đỡ của họ, chúng tôi chúng tôi nhận được ưu đãi hấp dẫn từ các ngân hàng và giảm giá cá nhân. Nhờ họ mà chúng tôi chúng tôi không trả tiền cho nhiều dịch vụ và mạng xã hội chỉ kiếm tiền từ quảng cáo. Nếu không, chỉ riêng Instagram thôi cũng đã tiêu tốn của chúng tôi vài nghìn đô la mỗi tháng.

Chỉ riêng Facebook đã có 2,4 tỷ người dùng hoạt động. Đồng thời, lợi nhuận của họ trong năm 2019 lên tới 18,5 tỷ USD. Hóa ra công ty kiếm được tới 7,7 đô la một năm từ mỗi người dùng thông qua quảng cáo.

Cuối cùng, đôi khi điều đó thật tiện lợi: khi các dịch vụ đã biết bạn đang ở đâu và bạn muốn gì và bạn không phải tự mình tìm kiếm thông tin mình cần.

Một lĩnh vực đầy hứa hẹn khác cho việc áp dụng Dữ liệu lớn là giáo dục.

Tại một trong những trường đại học của Mỹ ở Virginia, một nghiên cứu đã được thực hiện để thu thập dữ liệu về các sinh viên thuộc nhóm được gọi là rủi ro. Đó là những em học kém, nghỉ học và sắp phải bỏ học. Thực tế là ở các bang mỗi năm có khoảng 400 người bị trừ lương. Điều này không tốt cho cả các trường đại học, những trường bị hạ xếp hạng và cắt giảm tài trợ, cũng như cho chính các sinh viên: nhiều người vay tiền để học, sau khi khấu trừ, vẫn sẽ phải hoàn trả. Chưa kể mất thời gian và triển vọng nghề nghiệp. Với sự trợ giúp của dữ liệu lớn, có thể xác định kịp thời những người tụt hậu và cung cấp cho họ một gia sư, các lớp học bổ sung và các hỗ trợ có mục tiêu khác.

Nhân tiện, điều này cũng phù hợp với các trường học: sau đó hệ thống sẽ thông báo cho giáo viên và phụ huynh – họ nói rằng đứa trẻ có vấn đề, chúng ta hãy cùng nhau giúp đỡ. Dữ liệu lớn cũng sẽ giúp bạn hiểu sách giáo khoa nào hoạt động tốt hơn và giáo viên nào giải thích tài liệu dễ dàng hơn.

Một ví dụ tích cực khác là lập hồ sơ nghề nghiệp.: đây là lúc thanh thiếu niên được giúp quyết định nghề nghiệp tương lai của họ. Ở đây, dữ liệu lớn cho phép bạn thu thập thông tin không thể thu được bằng các bài kiểm tra truyền thống: cách người dùng cư xử, điều họ chú ý, cách họ tương tác với nội dung.

Ở Mỹ cũng vậy, có chương trình hướng nghiệp – SC ACCELERATE. Nó, trong số những thứ khác, sử dụng công nghệ CareerChoice GPS: họ phân tích dữ liệu về bản chất của học sinh, khuynh hướng của họ đối với các môn học, điểm mạnh và điểm yếu. Dữ liệu sau đó được sử dụng để giúp thanh thiếu niên chọn trường đại học phù hợp với họ.

Đăng ký và theo dõi chúng tôi trên Yandex.Zen — công nghệ, đổi mới, kinh tế, giáo dục và chia sẻ trên một kênh.

Bình luận