أرسلت Digital Content Next، وهي هيئة تجارية تمثل الناشرين الرقميين الأمريكيين، خطاب وقف وكف إلى مؤسسة Common Crawl.
تطالب الرسالة Common Crawl بالتوقف عن جمع محتوى الناشر وإزالة المواد الموجودة بالفعل في مجموعات البيانات الخاصة بها.
أعلن جيسون كينت، الرئيس التنفيذي لشركة DCN، عن الإشعار القانوني في منشور بالمدونة، وأوردت Press Gazette تفاصيل إضافية من الرسالة هذا الأسبوع.
قام Common Crawl بالزحف إلى عدة مليارات من الصفحات الجديدة كل شهر منذ عام 2007 لإنشاء أرشيف عام مجاني. وقد تم استخدام هذا الأرشيف لتدريب العديد من نماذج الذكاء الاصطناعي المستخدمة اليوم. أدرجت ورقة GPT-3 الخاصة بـ OpenAI الزحف المشترك الذي تمت تصفيته على أنه 60% من مزيج التدريب الخاص بالنموذج.
النزاع مهم لأي موقع يحظر برامج زحف الذكاء الاصطناعي. يؤدي حظر زاحف Common Crawl، CCBot، إلى إيقاف التجميع المستقبلي ولكنه لا يمس المحتوى الموجود بالفعل في الأرشيف، والذي لا يزال بإمكان أي شخص تنزيله.
ما تطلبه DCN
تدعو الرسالة Common Crawl إلى التوقف عن “تجريد أو الاحتفاظ أو مشاركة المحتوى المحمي بحقوق الطبع والنشر أو المحمي بنظام حظر الاشتراك غير المدفوع أو المشترك فقط أو المحمي بأي شكل آخر من الشركات الأعضاء في DCN في مجموعات البيانات الخاصة بها”، وإزالة محتوى الأعضاء الذي جمعته بالفعل.
تدعي DCN أن Common Crawl قد “انتهك بشكل صارخ” المحتوى المحمي بحقوق الطبع والنشر من خلال إنشاء مجموعات البيانات الخاصة بها ومشاركتها مع شركات الذكاء الاصطناعي.
وتقول الرسالة إن “قانون حقوق الطبع والنشر ليس نظامًا للانسحاب”. بمعنى آخر، موقف DCN هو أنه لا ينبغي للناشرين أن يطلبوا استبعادهم. يجب أن يحتاج الزحف المشترك إلى إذن لإدراجها.
كتب كينت أن الإشعار:
“يتحدى الافتراض المتزايد بأن المحتوى الذي تم إنشاؤه من خلال استثمار كبير يمكن جمعه وتخزينه وإعادة استخدامه وتحقيق الدخل منه ببساطة لأنه يمكن الوصول إليه من الناحية التقنية.”
لماذا تشك DCN في عملية الإزالة؟
يتساءل خطاب DCN عما إذا كان Common Crawl يتبع تعليمات إلغاء الاشتراك وما إذا كان يزيل المحتوى عند الطلب. وفقًا لـ Press Gazette، يقوم محامو DCN بفحص ما إذا كانت تصريحات Common Crawl للناشرين “قد تكون غير دقيقة أو مضللة”.
ينشر Common Crawl سجلاً عامًا لمواقع الويب التي طلبت عدم حذفها. ويتضمن إدخالات لوكالة Associated Press، وBBC، وتقريرًا كبيرًا من News/Media Alliance يغطي مئات المجالات. وذكرت صحيفة Press Gazette أن القائمة تشمل أيضًا ناشرين رئيسيين آخرين.
هذه ليست المرة الأولى التي يتم فيها التشكيك في عملية الإزالة. ذكرت مجلة The Atlantic في نوفمبر أن المحتوى من صحيفة نيويورك تايمز والناشرين الدنماركيين لا يزال متاحًا بعد موافقة Common Crawl على إزالته.
استجابة الزحف المشترك
ورفض ريتش سكرينتا، المدير التنفيذي لشركة Common Crawl، التعليق على الرسالة عندما اتصلت به Press Gazette.
لقد تراجع عن ادعاءات مماثلة من قبل. في منشور مدونة تم نشره في نوفمبر ردًا على مجلة The Atlantic، نفى سكرينتا أن المنظمة كذبت على الناشرين أو قامت بحذف المواد المحظورة.
وقال إن تنسيق ملف الأرشيف لا يمكن تعديله بعد النشر دون انتهاك سلامته. بدلاً من ذلك، يقول Common Crawl إنه يزيل أو يصفي عناوين URL المتأثرة من عمليات الزحف اللاحقة ويجعل الوصول إليها غير قابل للوصول من خلال أدواته ومؤشراته العامة:
“عندما يطلب منا ناشر إزالة مادة تم الزحف إليها مسبقًا، فإننا نستجيب على الفور ونبدأ عملية إزالة تعكس التصميم الفني لمجموعة البيانات الخاصة بنا.”
وأضاف:
“لم يزعم أحد في Common Crawl على الإطلاق أن هذا العمل كان فوريًا أو كاملاً؛ بل كنا منفتحين بشأن تعقيده وطبيعته المستمرة.”
في منشور بالمنتدى هذا الأسبوع، قال Skrenta إن Common Crawl يساهم في فتح المعايير للعمل حول كيفية تعبير مواقع الويب عن تفضيلات استخراج الذكاء الاصطناعي.
لماذا هذا مهم؟
يستهدف خطاب DCN الأرشيف المخزن، وليس فقط الزحف المستقبلي، ويؤكد أنه لا ينبغي أن يقع العبء على عاتق الناشرين لإلغاء الاشتراك في المقام الأول.
لقد اتخذ معظم الناشرين في عينة BuzzStream بالفعل قرار الحجب، حيث قام 79% من المواقع الإخبارية المائة التي فحصتها بحظر روبوت تدريب واحد على الأقل. وجدت بيانات المراجعة السنوية لـ Cloudflare التي قمنا بتغطيتها في شهر يناير أن CCBot من بين برامج الروبوت التي تتمتع بتوجيهات عدم السماح الأكثر اكتمالًا عبر النطاقات العليا. السؤال الذي تثيره DCN هو ما الذي ستحققه هذه الكتل إذا ظلت سنوات من المحتوى متاحة للتدريب على أي حال.
التطلع إلى الأمام
يعتمد تصعيد DCN على كيفية استجابة Common Crawl، ولم يوضح Common Crawl كيف سيتم ذلك. يريد الجانبان قواعد مختلفة لمن يتصرف أولاً.
تدعم Skrenta العمل المعياري الذي من شأنه أن يسمح للمواقع بتحديد تفضيلاتها في عملية الاستخراج، والتي تستمر في إلغاء الاشتراك كنموذج. اتخذت هيئة أسواق المال في المملكة المتحدة مسارًا مشابهًا عندما طلبت من جوجل السماح للناشرين بإلغاء الاشتراك في ميزات بحث الذكاء الاصطناعي.
تقول DCN أن أدوات الكشط يجب أن تحتاج إلى إذن أولاً. إذا تبنت المزيد من المجموعات التجارية هذه الحجة، فسينتقل الضغط من ملفات robots.txt الفردية إلى الأرشيفات نفسها.
صورة مميزة: أندريه بوكريف/ شترستوك
اكتشاف المزيد من قمم التجارية للأعمال
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.
