Parlando di statistica, neanche di informatica (che in buona sostanza è il trattamento con strumenti logico/matematici di una serie di informazioni memorizzate) uno dei fondamenti è GIGO. Garbage In, Garbage Out. Se i dati di partenza non sono buoni, quello che se ne ottiene non sarà migliore.
L'informatica in uso fino a poco tempo fa, quella dei data base e programmi associati di gestione, utilizzava archivi più procedure di estrazione e trattamento/elaborazione dei dati di tipo rigido secondo regole logiche o matematiche. Al più potevo sfruttare librerie di funzioni predisegnate in maniera da ottenere da quei dati archiviati quei dati o informazioni che mi servivano (oppure potevo scrivermi io i programmi).
L'elettronica cosa centra in tutto questo? Nel fatto che per operazioni ripetitive fa prima e meglio di un essere umano con carta e penna. E' più veloce e non sbaglia i calcoli. Stop. In contabilità siamo passati dalla partita doppia con la prima nota, il libro giornale e i conti, a mano con carta penna e al più calcolatrice Summa Prima (quella a manovella della Olivetti) -rischio di riportare importi errati, di dimenticarsi una trascrizione, di registrare sul conto sbagliato, di sbagliare una somma eccetra- alle prime macchine contabili elettromeccaniche come le Olivetti Audit (prima macchina elettromeccanica alfanumerica del 1956) a quelle elettroniche dedicate e poi agli elaboratori con i programmi di contabilità senza più necessità di macchine dedicate che sapevano fare solo e soltanto una cosa, mentre con l'elaboratore potevo farci la contabilità, le paghe e contributi ... 
E poi siamo arrivati all'intelligenza artificiale. Semplificando all'estremo, con l'intelligenza artificiale si è in buona sostanza automatizzata la fase della raccolta dati e della scrittura di programmi di trattamenti di quei dati. L'uomo non seleziona più i dati, da in pasto testi o dati grezzi e che si arrangi la macchina ad estrarre dati e dedurre schemi che li colleghino (e qui finiamo nell'ambito dei LLM Large Language Model).
Quando si parla di addestramento della intelligenza artificiale si intende il raccogliere una massa enorme di dati che serviranno poi per l'elaborazione. E già qui si va a sbatttere sul GIGO: se la qualità dei dati è scarsa vado poco lontano. Sempre semplificando, nei sistemi informatici "old style" i dati in input venivano scelti e supervisionati da esseri umani; ora l'AI è addestrata anche e soprattutto con sistemi automatizzati che fanno anche pesca a strascico delle mail -vero, signor Google?- o con testi di preview non validati o peggio con siti complottisti le probabilità di incappare in dati di qualità non eccelsa esplode. Quando si fa il passo ai sistemi di estrazione ed elaborazioni, siamo passato da sistemi logici rigidi (IF a = b THEN x ELSE y) a sistemi probabilistici (nel testo se ad A segue B allora PROBABILMENTE a B segue C). Ma tutto dipende da chi ha scritto il programma ... e da che regole applica nell'analisi della enorma massa di dati raccolta per ottenere dei modelli: il diavolo è nei dettagli, nel caso nella percentuale applicata al PROBABILMENTE di cui sopra. Il gioco si complica ancora di più se il valore del parametro del PROBABILMENTE è affidato alla macchina stessa sulla base delle analisi dei dati (eccoci con i LLM).
Di nuovo, a dati di qualità bassa seguiranno risultati di qualità al pari, se tutto va bene. E quando anche i dati ci sono e sono validi tutto dipende dal cosiddetto prompt: l'interrogazione al modello per richiedere l'elaborazione dei dati. In breve, se la domanda non è chiara od è in sé suggestiva la risposta sarà poco chiara o seguirà il suggerimento dato col rischio di andare dietro all'errore se il suggerimento è errato. Di nuovo, GIGO. E per completare la frittata, purtruppo i sistemi sono programmati in modo da dare una qualche risposta, non nel rispondere "non lo so" o chiedere precisazioni quando non hanno dati sufficienti per elaborare una risposta: ecco le cosiddette allucinazioni. Ho provato a chiedere all'AI di Meta "chi è xxx yyy", dandogli il mio nome e cognome; non sono una celebrità, ma so bene quali mie tracce sono presenti nella Rete e di avere degli omonimi. La risposta è stata -ignorando del tutto tali tracce ed omonimi- che sarei un passato sindaco di Palermo: peccato che nel periodo indicato nella risposta il sindaco di Palermo era tutt'altra persona, e che a domanda successiva (ti sbagli, dove hai trovato quei dati?) la macchina ha detto che erano dati che aveva. Quando poi gli ho chiesto di elencare i sindaci di Palermo dal 1945 ad oggi la macchina ha risposto con l'elenco giusto, per poi scusarsi quando gli ho fatto notare che questa risposta era in conflitto con la prima. E stiamo parlando di dati storici inconfutabili.
Tutto 'sto pippone a che pro? L'AI se lavora su dati certi, aggiornati ed affidabili può essere utilissima. Nel forum c'è che può testimoniare che in ambiti come quello della fluidodinamica o nell'elaborazione delle immagini riesca ad ottenere risultati inimmaginabili pochissimo tempo fa. Nei telefonini di gamma medio-alta il comparto foto-video ormai si appoggia a strumenti dedicati di intelligenza artificiale col risultato di non sbagliare una ripresa in controluce o in notturno  (infatti si parla di fotografia computazionale). Ma sulle parole no. Basta leggere dei ricorsi depositati da avvocati con precedenti o norme di legge o sentenze inventate oppure con conclusioni sballate. Chi è in ambito universitario spesso passa tesi e tesine a programmi che valutano quanto lo scritto sia farina del sacco del -supposto- autore: non c'è nulla di male ad ottenere una bibliografia da ChatGPT, basta solo che i testi indicati esistano davvero e siano di quell'autore -cosa non sempre vera-. Una verifica dei risultati andrebbe fatta, insomma. Non parliamo poi delle immagini o filmati alterati spesso non certo a fin di bene.
Anche qui sul forum compaiono post che puzzano di AI lontano miglia: per onestà intellettuale se gli autori lo dichiarassero sarebbe una buona cosa. Ma in campo giornalistico il problema è serio. IL Post ha opportunamente ricordato nella sua newsletter Charlie, parlando a proposito della libertà di espressione, della diffamazione, della diffusione di notizie false a mezzo stampa (o internet), questo passo che copioincollo
E qui c'entra anche la seconda cosa: ed è che un fattore rilevantissimo dei contenuti potenzialmente o realmente diffamanti pubblicati dai giornali italiani, o di quelli falsi (le due cose sono distinte, come abbiamo detto, ma con estese sovrapposizioni), è quella che si chiama "negligenza". Che è un limite peculiare della cultura giornalistica nazionale, rispetto agli altri paesi (compresi gli Stati Uniti che Malavenda cita a esempio nel suo articolo, e che la negligenza la contemplano e perseguono): sono negligenza la trascuratezza nel pubblicare, la limitatezza delle verifiche, la scarsa prudenza, le scelte impulsive per ottenere attenzioni e click. C'è una frequente "irresponsabilità" nel lavoro giornalistico italiano, che deriva dalla sua storia e dalla scarsa sedimentazione di rigori presenti in altri paesi.>
Quanto ho evidenziato in grassetto penso sia applicabile anche a noi che postiamo sul forum.
C'è poi chi ha preso una strada radicale: dal sito del Corriere della Sera - Tecnologia di oggi:
In Cina, dal 25 ottobre 2025, chiunque voglia parlare di temi «seri» sui social, come diritto, salute, finanza e istruzione, dovrà dimostrare di avere una qualifica professionale o un titolo di studio riconosciuto nel settore di cui si occupa. In caso contrario, si rischiano multe fino a 12 mila euro, sospensione o chiusura dell’account. La misura, annunciata dalla Cyberspace Administration of China (CAC), ha l'obiettivo dichiarato di combattere la disinformazione, tutelare i cittadini da consigli potenzialmente pericolosi ed alzare il livello di credibilità nei contenuti online.
Qui si entra in altri ambiti di libertà.