Meta treina IA com site de livros piratas criado na Rússia

Meta utiliza base de dados pirata para treinar modelo de IA, gerando controvérsias sobre direitos autorais. A empresa afirma que o uso é justificado pela legislação de "fair use", mas enfrenta ações judiciais de escritores lesados.

Meta, dona de Facebook, Instagram e WhatsApp, utilizou uma base de dados de livros piratas para treinar seu modelo de IA, chamado Llama. Essa base, chamada LibGen, contém 2,4 milhões de livros de não-ficção e 2,5 milhões de ficção.

Uma ação judicial revelou que o uso da base pirata foi autorizado por Mark Zuckerberg. Documentos internos da empresa indicam que houve um debate minucioso sobre a legalidade do uso dessa base.

Cientistas da Meta mostraram ignorância sobre direitos autorais, questionando custos e prazos de licenciamento. Há indícios de que a empresa baixou livros ilegalmente para o treinamento do modelo de IA.

Funcionários discutiram maneiras de esconder a origem dos arquivos, incluindo a remoção de ISBN e informações de direitos autorais.

Apesar de acusações de violação de direitos autorais por grandes editoras, a Meta defende seu uso com base na figura do “fair use”. A empresa afirma que o treinamento transforma as obras e cria algo original.

Até o momento, a Meta enfrenta mais de 10 processos nos EUA, e uma recente ação na França foi movida por entidades do setor editoral.

Um porta-voz da empresa afirmou que o uso da LibGen foi vital para promover inovação e criatividade na área de IA.