Nvidia столкнулась с коллективным иском от группы авторов, обвиняющих компанию в нарушении авторских прав при обучении языковых моделей. Новые судебные документы раскрывают, что сотрудники Nvidia напрямую запрашивали доступ к 500 терабайтам книжных архивов, заведомо содержащих пиратский контент.
Документы истцов содержат электронные письма сотрудников Nvidia с запросами на доступ к репозиторию Anna's Archive – хранилищу книг и других онлайн-материалов. Согласно материалам дела, сотруднику Nvidia явно сообщили, что архив содержит "миллионы пиратских книг", однако после этого всё равно был дан "зеленый свет" на использование данных.
Помимо этого, документы, которыми поделился Torrentfreak, утверждают, что Anna's Archive предложила Nvidia доступ к "нескольким миллионам книг из Internet Archive", обычно доступных только через систему цифрового кредитования Internet Archive. В иске говорится, что "загрузив Anna's Archive, Nvidia создала пиратские копии произведений истцов". Авторы также обвиняют компанию в использовании других пиратских источников – баз данных Books3, LibGen, Sci-Hub и Z-Library.
Anna's Archive представляет собой поисковую систему с открытым исходным кодом и считается "теневой библиотекой" – онлайн-хранилищем свободно доступных данных, которые обычно находятся за платным доступом. Платформа провозглашает себя "крупнейшей по-настоящему открытой библиотекой в истории человечества" и агрегирует контент из других теневых библиотек вроде LibGen, Sci-Hub и Z-Library. Эти сайты заявляют о сохранении онлайн-данных, но делают это через открытый доступ к защищенным авторским правом материалам.
В документах не представлены доказательства фактического использования данных и не упоминается передача денег за доступ к архивам. Nvidia пока не комментировала эту конкретную подачу документов, однако ранее компания признавала использование датасета Books3, содержащего множество произведений под авторским правом. В свою защиту Nvidia заявила, что не подпадает под законы об авторских правах, так как ИИ-модели не читают как люди, а "измеряют статистические корреляции в совокупности данных".
Хотя это действительно так, компания фактически использует чужую интеллектуальную собственность для улучшения своего продукта, так что не имеет значения, читает ли ИИ книги или нет. Nvidia же не предоставляет свободный доступ к своим технологиям.










