كشفت جامعة هارفارد عن تعاونها مع جوجل لإطلاق مجموعة بيانات ضخمة تضم حوالي مليون كتاب من المجال العام، تهدف إلى دعم تطوير نماذج الذكاء الاصطناعي وتدريبها.
وتأتي هذه المبادرة في إطار مشروع “البيانات المؤسسية” (IDI) الذي أعلنت عنه الجامعة في مارس الماضي، ويهدف إلى توفير مصدر موثوق للبيانات القانونية المستخدمة في تدريب أنظمة الذكاء الاصطناعي.
تعتمد مجموعة البيانات على محتوى مشروع Google Books، وتشمل أعمالًا أدبية لكبار الكتاب العالميين مثل ديكنز ودانتي وشكسبير، والتي أصبحت متاحة للاستخدام العام بعد انتهاء حقوق ملكيتها الفكرية.
وقال جريج ليبرت، المدير التنفيذي للمبادرة، إن المشروع يهدف إلى “تكافؤ الفرص” من خلال إتاحة هذه البيانات الضخمة لجميع المهتمين بتطوير نماذج اللغة الكبيرة، سواء كانوا من المختبرات البحثية أو الشركات الناشئة.
ويحظى المشروع بدعم مالي من شركتي مايكروسوفت وOpenAI، فيما لم يتم الإعلان بعد عن موعد محدد لإطلاق مجموعة البيانات أو آلية الوصول إليها.
اقتراح المُحرر: