Meta treina IA com site de livros piratas criado na Rússia
Meta utiliza base de dados pirata para treinar modelo de IA, gerando controvérsias sobre direitos autorais. A empresa afirma que o uso é justificado pela legislação de "fair use", mas enfrenta ações judiciais de escritores lesados.
Meta, dona de Facebook, Instagram e WhatsApp, utilizou uma base de dados de livros piratas para treinar seu modelo de IA, chamado Llama. Essa base, chamada LibGen, contém 2,4 milhões de livros de não-ficção e 2,5 milhões de ficção.
Uma ação judicial revelou que o uso da base pirata foi autorizado por Mark Zuckerberg. Documentos internos da empresa indicam que houve um debate minucioso sobre a legalidade do uso dessa base.
Cientistas da Meta mostraram ignorância sobre direitos autorais, questionando custos e prazos de licenciamento. Há indícios de que a empresa baixou livros ilegalmente para o treinamento do modelo de IA.
Funcionários discutiram maneiras de esconder a origem dos arquivos, incluindo a remoção de ISBN e informações de direitos autorais.
Apesar de acusações de violação de direitos autorais por grandes editoras, a Meta defende seu uso com base na figura do “fair use”. A empresa afirma que o treinamento transforma as obras e cria algo original.
Até o momento, a Meta enfrenta mais de 10 processos nos EUA, e uma recente ação na França foi movida por entidades do setor editoral.
Um porta-voz da empresa afirmou que o uso da LibGen foi vital para promover inovação e criatividade na área de IA.