banner
Centro de notícias
Excelência em qualidade e atendimento personalizado

Veja os sites que tornam os bots de IA como o ChatGPT tão inteligentes

Aug 18, 2023

Os chatbots de IA explodiram em popularidade nos últimos quatro meses, impressionando o público com suas incríveis habilidades, desde escrever trabalhos de conclusão de curso sofisticados até manter conversas irritantemente lúcidas.

Chatbots não podem pensar como humanos: eles realmente não entendem o que dizem. Eles podem imitar a fala humana porque a inteligência artificial que os alimenta ingeriu uma quantidade gigantesca de texto, a maioria extraída da internet.

[Big Tech estava se movendo com cautela em IA. Então veio o ChatGPT.]

Este texto é a principal fonte de informação da IA ​​sobre o mundo à medida que está sendo construído e influencia como ele responde aos usuários. Se ele passar no teste de admissão da faculdade de direito, por exemplo, provavelmente é porque seus dados de treinamento incluíam milhares de locais de prática do LSAT.

As empresas de tecnologia tornaram-se sigilosas sobre o que alimentam a IA. Assim, o The Washington Post começou a analisar um desses conjuntos de dados para revelar completamente os tipos de sites proprietários, pessoais e muitas vezes ofensivos que entram nos dados de treinamento de uma IA.

Para olhar dentro dessa caixa preta, analisamos o conjunto de dados C4 do Google, um enorme instantâneo do conteúdo de 15 milhões de sites que foram usados ​​para instruir alguns AIs de alto nível em inglês, chamados de modelos de linguagem grande, incluindo o T5 do Google e o LLaMA do Facebook. . (OpenAI não divulga quais conjuntos de dados usa para treinar os modelos que suportam seu popular chatbot, ChatGPT)

O Post trabalhou com pesquisadores do Allen Institute for AI nesta investigação e categorizou os sites usando dados da Similarweb, uma empresa de análise da web. Cerca de um terço dos sites não puderam ser categorizados, principalmente porque não aparecem mais na internet. Esses não são mostrados.

Toque nas caixas acima para ver os principais sites

Em seguida, classificamos os 10 milhões de sites restantes com base em quantos "tokens" apareceram em cada um no conjunto de dados. Tokens são pequenos pedaços de texto usados ​​para processar informações desorganizadas — geralmente uma palavra ou frase.

O conjunto de dados foi dominado por sites de setores como jornalismo, entretenimento, desenvolvimento de software, medicina e criação de conteúdo, ajudando a explicar por que esses campos podem estar ameaçados pela nova onda de inteligência artificial. Os três maiores sites foram patentes.google.com No. 1, que contém textos de patentes emitidas em todo o mundo; wikipedia.org No. 2, a enciclopédia online gratuita; e scribd.com No. 3, uma biblioteca digital somente para assinatura. Também no topo da lista: b-ok.org No. 190, um notório mercado de e-books piratas que desde então foi apreendido pelo Departamento de Justiça dos Estados Unidos. Pelo menos 27 outros sites identificados pelo governo dos EUA como mercados de pirataria e falsificações estavam presentes no conjunto de dados.

Alguns sites importantes pareciam arbitrários, como wowhead.com No. 181, um fórum de jogadores de World of Warcraft; prosperglobal.com No. 175, um produto para vencer o esgotamento fundado por Arianna Huffington; e pelo menos 10 sites que vendem lixeiras, incluindo dumpsteroid.com No. 183, que não parecem mais acessíveis.

Outros levantaram preocupações significativas com a privacidade. Dois sites entre os 100 primeiros, coloradovoters.info nº 40 e flvoters.com nº 73, tinham cópias hospedadas de forma privada dos bancos de dados estaduais de registro de eleitores. Embora os dados dos eleitores sejam públicos, os modelos podem usar essas informações pessoais de maneiras desconhecidas.

Principais sites comerciais e industriais:

tolo.com

kickstarter.com

sec.gov

marketwired.com

city-data.com

meuemail.constantcontact.com

finanças.yahoo.com

prweb.com

empreendedor.com

globalresearch.ca

Sites comerciais e industriais compunham a maior categoria (16% dos tokens categorizados), liderados pelo silly.com nº 13, que fornece consultoria de investimento. Não muito atrás estava o kickstarter.com nº 25, que permite aos usuários fazer crowdfund para projetos criativos, e mais abaixo na lista, patreon.com nº 2.398, que ajuda os criadores a cobrar taxas mensais dos assinantes por conteúdo exclusivo.

O Kickstarter e o Patreon podem dar à IA acesso às ideias dos artistas e cópias de marketing, levantando preocupações de que a tecnologia possa copiar este trabalho em sugestões aos usuários. Atualmente, os artistas não recebem nenhuma compensação ou crédito quando seu trabalho é incluído nos dados de treinamento de IA e apresentaram reclamações de violação de direitos autorais contra os geradores de conversão de texto em imagem Stable Diffusion, MidJourney e DeviantArt.