مثل معظم شركات التكنولوجيا الأخرى الموجودة، اعتمدت Adobe بشكل كبير على الذكاء الاصطناعي خلال السنوات القليلة الماضية. أطلقت شركة البرمجيات عددًا من خدمات الذكاء الاصطناعي المختلفة منذ عام 2023، بما في ذلك Firefly—وهي مجموعة توليد الوسائط المدعومة بالذكاء الاصطناعي. ومع ذلك، قد يكون احتضان الشركة الكامل لهذه التقنية قد أدى إلى مشاكل، حيث تدعي دعوى قضائية جديدة أنها استخدمت كتبًا مقرصنة لتدريب أحد نماذج الذكاء الاصطناعي الخاصة بها.
تزعم دعوى قضائية مقترحة تم رفعها نيابة عن إليزابيث ليون، وهي مؤلفة من ولاية أوريغون، أن Adobe استخدمت نسخًا مقرصنة من العديد من الكتب—بما في ذلك كتابها الخاص—لتدريب برنامج SlimLM الخاص بالشركة.
تصف Adobe برنامج SlimLM بأنه سلسلة من النماذج اللغوية الصغيرة التي يمكن "تحسينها لمهام المساعدة في المستندات على الأجهزة المحمولة." وتذكر أن SlimLM تم تدريبه مسبقًا على SlimPajama-627B، وهي "مجموعة بيانات مفتوحة المصدر ومتعددة المصادر وخالية من التكرار" أصدرتها Cerebras في يونيو 2023. وتقول ليون، التي كتبت عددًا من الأدلة لكتابة غير الخيال، إن بعض أعمالها تم تضمينها في مجموعة بيانات التدريب المسبق التي استخدمتها Adobe.
تقول دعوى ليون، التي تم الإبلاغ عنها في الأصل من قبل Reuters، إن كتاباتها تم تضمينها في مجموعة فرعية معالجة من مجموعة بيانات تم التلاعب بها والتي كانت أساس برنامج Adobe: "تم إنشاء مجموعة بيانات SlimPajama عن طريق نسخ والتلاعب بمجموعة بيانات RedPajama (بما في ذلك نسخ Books3)"، كما تقول الدعوى. "لذا، وبما أنها نسخة مشتقة من مجموعة بيانات RedPajama، فإن SlimPajama تحتوي على مجموعة بيانات Books3، بما في ذلك الأعمال المحمية بحقوق النشر للمدعية وأعضاء الفئة."
"Books3"—وهي مجموعة ضخمة تضم 191,000 كتاب تم استخدامها لتدريب أنظمة الذكاء الاصطناعي التوليدي—كانت مصدرًا مستمرًا للمشاكل القانونية لمجتمع التكنولوجيا. كما تم الاستشهاد بـ RedPajama في عدد من القضايا القضائية. في سبتمبر، زعمت دعوى قضائية ضد Apple أن الشركة استخدمت مواد محمية بحقوق النشر لتدريب نموذج Apple Intelligence الخاص بها. وذكرت الدعوى مجموعة البيانات واتهمت الشركة التقنية بنسخ الأعمال المحمية "دون موافقة ودون إسناد أو تعويض." في أكتوبر، زعمت دعوى مماثلة ضد Salesforce أيضًا أن الشركة استخدمت RedPajama لأغراض التدريب.
ولسوء حظ صناعة التكنولوجيا، أصبحت مثل هذه الدعاوى الآن أمرًا شائعًا إلى حد ما. يتم تدريب خوارزميات الذكاء الاصطناعي على مجموعات بيانات ضخمة، وفي بعض الحالات، يُزعم أن هذه المجموعات تتضمن مواد مقرصنة. في سبتمبر، وافقت Anthropic على دفع 1.5 مليار دولار لعدد من المؤلفين الذين رفعوا دعوى ضدها واتهموها باستخدام نسخ مقرصنة من أعمالهم لتدريب روبوت الدردشة الخاص بها، Claude. اعتُبر هذا القضية نقطة تحول محتملة في المعارك القانونية المستمرة حول المواد المحمية بحقوق النشر في بيانات تدريب الذكاء الاصطناعي، والتي يوجد منها الكثير.
