Facebook Merilis Dataset 1,6GB yang Digunakan untuk Melatih AI

Ilustrasi AI (yalescientific.org)

Facebook merilis data yang digunakan untuk melatih perangkat lunak kecerdasan buatan untuk memahami cerita anak-anak dan memprediksi kata yang hilang dari kalimat yang diberikan dalam sebuah cerita.

Kumpulan data dalam (.tgz) dengan ukuran 1,6GB dan berkaitan dengan makalah akademis yang diterbitkan baru-baru ini, “The Goldilocks Principle: Reading Children’s Books with Explicit Memory Representations.” CEO Facebook Mark Zuckerberg memberikan gambaran yang baik dari penelitian ini dalam sebuah posting Facebook.

Language is one of the most complex things for computers to understand. Guessing how to complete a sentence is pretty easy for people but much more difficult for machines. Historically, computers have been able to predict simple words like “on” or “at” and verbs like “run” or “eat”, but they don’t do as well at predicting nouns like “ball”, “table” or people’s names.

For this research, our team taught the computer to look at the context of a sentence and much more accurately predict those more difficult words — nouns and names — which are often the most important parts of sentences. The computer’s predictions were most accurate when it looked at just the right amount of context around relevant words — not too much and not too little. We call this “The Goldilocks Principle”.

Kumpulan data yang digunakan untuk melatih AI sekarang tersedia untuk diakses oleh peneliti akademis dan bahkan peneliti dari perusahaan lain yang tertarik untuk meningkatkan sistem pemahaman bahasa untuk aplikasi mereka.

Facebook sebelumnya merilis open source beberapa kode sumber kecerdasan buatannya, dan bahkan berbagi desain server untuk kecerdasan buatannya. Merilis data adalah cara lain Facebook untuk berbagi tool untuk memajukan penelitian.

Yahoo, perusahaan lain yang juga sedang melakukan penelitian kecerdasan buatan, baru-baru ini merilis sebuah dataset sebesar 13TB yang dapat digunakan untuk penelitian machine learning, tapi dataset tersebut hanya tersedia untuk orang yang berafiliasi dengan institusi akademik.

Informasi lebih lanjut mengenai penelitian kecerdasan buatan “Children’s Book Test” dapat ditemukan pada situs penelitian Facebook research.facebook.com

VentureBeat

You may also like...