Error
  • Error loading feed data

Contenuti duplicati e Google

PrintPDF


Quando si esegue un test di Ottimizzazione Motori di Ricerca si scopre che le pagine web sono duplicate nell'indice di Google. Un record è corretto ma l'altro include '?tmpl=component&type=raw' nella url.

Se si ha un sito Joomla! (personale o commerciale che sia) Il panico colpisce immediatamente dal momento che qualsiasi campagna pubblicitaria abbiamo in mente di applicare è a rischio da quando Google ha istituito la "duplicated content penalty" (penalizzazione contenuti duplicati).

Anche se di fatto i vertici Google hanno ufficialmente negato l'esistenza di una sanzione per un tali "duplicati", assicurando che questo è un falso allarme e sostenendo che loro effettuano penalizzazioni solo su pagine effettivamente duplicate e penalizzando il copycat, noi, per sicurezza, ma non per sfiducia, crediamo che il problema dei contenuti duplicati di Joomla! debba essere risolto.

Analizziamo, prima di tutto, da dove provengono questi collegamenti.

Provate ad esempio a digitare:

http://joomlaitalia.com/?tmpl=component&type=raw

Come possiamo facilmente vedere, l'aggiunta di questi parametri al termine di un URL Joomla! ha l'effetto di restituire una copia della pagina web senza gli elementi delle pagine aggiuntive ma proprio esclusivamente l'area del contenuto principale.

Spieghiamo, a coloro che ancora non conoscono questa procedura, che questo è un modo per creare versioni della pagina adatta alla stampa, e-mail, la generazione di PDF e il funzionamento di alcune Ajax.

Quindi se a prima vista possiamo affermare che non c'è niente di male, anzi al contrario queste sono molto utili ad un webmaster per generare effetti interessanti, queste possono essere fonte del problema duplicati con indicizzazione Google.

Alcuni sviluppatori aggiungono "nofollow" a questi link, oppure utilizzano altre tattiche per impedire l'indicizzazione di questi pseudo-duplicati, ma molti altri utenti ignari del problema non si curano di bloccare sul nascere il problema stesso.

Proprio per questo e rivolto a gruppi di utenti che non hanno grandi conoscenze per agire sui codici sorgenti, oppure che non si fidano di installare estensioni ad hoc o peggio si lasciano vincere dalla pigrizia, ecco qua un paio di consigli su come farlo da soli con assoluta semplicità.

Nella lista seguente ecco elencate alcune semplici cure al problema

  • Utilizzare un componente SEF. Il SEF nativo di Joomla va bene ma ce ne sono di migliori in giro quindi provateli.
  • Rivedere le impostazioni e verificare se avete realmente necessità di quelle opzioni che producono questo tipo di collegamenti (stampa, PDF, e-mail, pulsanti leggi-tutto sviluppati in Ajax, ecc.)
  • Eseguire la scansione delle pagine per trovare questi collegamenti.

    Come fare?

    Facile: tasto destro del mouse sulla pagina, nel menu scegliere "Visualizza sorgente" (la dicitura esatta dipende dal vostro browser, dal sistema operativo e dalla lingua utilizzata), e quindi cercare nella pagina per la stringa "?tmpl=component&type=raw".
  • Aprite il vostro file "robots.txt" che trovate nella directory principale del sito. Apritelo con un editor testuale e aggiungete la 'Disallow' per ogni pagina che si desidera rimuovere dai risultati di ricerca di Google. Notare bene che ogni voce è relativa al dominio del sito web e ricordate che non saremo in grado di utilizzare una wild-card (*) per specificare più elementi ma ogni directory deve essere elencata separatamente.

    ad esempio:

    Questo è il contenuto del un file robot.txt nativo Joomla!

        User-agent: * 
        Disallow: /administrator/
        Disallow: /cache/
        Disallow: /cli/
        Disallow: /components/
        Disallow: /images/
        Disallow: /includes/
        Disallow: /installation/
        Disallow: /language/
        Disallow: /libraries/
        Disallow: /logs/
        Disallow: /media/
        Disallow: /modules/
        Disallow: /plugins/
        Disallow: /templates/
        Disallow: /tmp/
    

    Noi inseriremo ad esempio queste voci successive

        Disallow: /?tmpl=component&type=raw 
        Disallow: /news/120-joomla-2-5-1/?tmpl=component&type=raw 
    

    e otterremo

        User-agent: * 
        Disallow: /administrator/
        Disallow: /cache/
        Disallow: /cli/
        Disallow: /components/
        Disallow: /images/
        Disallow: /includes/
        Disallow: /installation/
        Disallow: /language/
        Disallow: /libraries/
        Disallow: /logs/
        Disallow: /media/
        Disallow: /modules/
        Disallow: /plugins/
        Disallow: /templates/
        Disallow: /tmp/
        Disallow: /?tmpl=component&type=raw 
        Disallow: /news/120-joomla-2-5-1/?tmpl=component&type=raw 
    
  • Utilizzare un buon componente per la gestione delle sitemap o creare un nuovo sitemap.xml con qualsiasi altro strumento che ci piace utilizzare, assicurandosi però che questa sitemap non contenga i links che stiamo trattando, ovvero links che abbiano ?tmpl=component&type=raw. Fatto questo caricarate il file nella directory principale del sito
  • Accedere al vostro account Google Webmaster, se ne avete uno altrimenti registratevi gratuitamente, e presentare i vostri nuovi sitemap e richiedete la rimozione nell'indice di Google di tutte le pagine che consideriamo non dover essere lì.
The Joomla!® name and logo is used under a limited license from Open Source Matters in the U.S.A. and other countries. Joomlaitalia.com is not affiliated with or endorsed by O.S.M. or the Joomla!® Project.