Duplicate content en SEO - Alles op een rij

- 29 maart 2018



Wie bezig is met SEO, krijgt vroeg of laat te maken met duplicate content. Maar wat betekent duplicate content eigenlijk? Is het waar dat je een penalty van Google krijgt wanneer jouw content ook op andere websites staat? En hoe is het eigenlijk mogelijk dat een vacaturesite als Indeed hoog in de zoekmachine scoort, terwijl de vacatureteksten niet uniek zijn? In dit artikel lees je alle ins & outs rondom duplicate content!

Wat is duplicate content?

Waarschijnlijk heb je wel eens van duplicate content gehoord, en kun je je een beeld vormen van wat het ongeveer inhoudt. Er is echter ook een grote kans dat dat beeld niet helemaal compleet is. Mensen die zich voor het eerst verdiepen in SEO, denken vaak dat het bij duplicate content enkel om het kopiëren van teksten gaat. Het omvat echter veel meer dan alleen dat. Bij duplicate content is dezelfde content te bereiken op verschillende URL’s. Hoewel dat kan gebeuren omdat een andere partij jouw teksten overneemt, kan duplicate content ook andere oorzaken hebben. Veelal ontstaat duplicate content bijvoorbeeld door technische instellingen op de eigen website. Denk aan een website die zowel draait op http als https. Wanneer er sprake is van duplicate content binnen de eigen website, noemen we dit interne duplicate content. Duplicate content die optreedt wanneer andere domeinen jouw content gebruiken, of wanneer je zelf content van een andere partij overneemt, noemen we externe duplicate content. Beide vormen van duplicate content brengen hun eigen problemen en misverstanden met zich mee. Voor ik hier dieper op inga, wil ik alvast één groot misverstand uit de weg werken: de mythe rondom de duplicate content penalty.

 

Kan duplicate content een penalty veroorzaken?

Het antwoord op deze vraag is simpel: nee. Google geeft websites met duplicate content geen penalty. Volgens Matt Cutts, voormalig hoofd van Google’s web spam team, bestaat zo’n 25 tot 30% van het internet uit duplicate content en hoeven we ons hier geen zorgen over te maken. Waarom duplicate content dan toch problematisch kan zijn? Op het moment dat twee URL’s dezelfde content bevatten, kiest Google welke van die twee URL’s beter gaat ranken in de zoekresultaten. Omdat Google de gebruiker in principe geen dubbele content wil laten zien, zien we vaak dat de tweede URL ver wegzakt in de resultaten. Dit is natuurlijk problematisch wanneer Google de voorkeur aan een andere URL geeft dan jij.

 

Interne duplicate content

Interne duplicate content treedt op wanneer bepaalde content binnen hetzelfde domein te bereiken is via verschillende URL’s. Meestal heeft dit een technische oorzaak. Dit zijn de meest voorkomende technische problemen:

  • Verschillende homepages - De homepage is via verschillende URL’s te bereiken, bijvoorbeeld via www.domein.nl/home en www.domein.nl/index.html.
  • Www vs. non-www pagina’s - Er staat geen redirect ingesteld van de non-www naar de www versie of andersom.
  • Pdf- of printversies van een pagina - Een artikel of whitepaper is via verschillende URL’s te bereiken, bijvoorbeeld via www.domein.nl/print/artikel
  • Gepagineerde content - De website maakt gebruik van paginanummers, maar dezelfde tekst komt op alle pagina’s voor.
  • Filter- en weergaveopties - Tijdens het filteren worden parameters aan de URL toegevoegd, terwijl de content hetzelfde blijft.

Bovenstaande technische problemen zorgen er stuk voor stuk voor dat meerdere pagina’s tegen elkaar gaan concurreren in de zoekresultaten. Maar interne duplicate content brengt ook nog twee andere problemen met zich mee:

  • Linkwaarde verspilling - Via een (follow) link wordt een deel van de waarde van een bepaalde pagina doorgegeven aan een andere pagina. Hoe meer waarde een bepaalde pagina krijgt, hoe hoger deze in de zoekresultaten van Google wordt getoond. Stel: URL 1 en URL 2 hebben dezelfde content, en je hebt naar beide URL’s vijf keer gelinkt. De linkwaarde wordt dan over die twee URL’s verdeeld. Wanneer je slechts één URL zou hebben, zou alle linkwaarde op die URL terecht zijn gekomen. Dit is wenselijk, omdat je zo een sterker linkprofiel opbouwt en dus hoger in de zoekresultaten eindigt.
  • Crawl budget verspilling - Google crawlt regelmatig je website. Het aantal pagina’s dat Google crawlt, wordt ook wel crawl budget genoemd. De hoeveelheid pagina’s die de zoekmachine afloopt, is afhankelijk van een aantal zaken, zoals de grootte van je website en het aantal links naar je website. Wanneer er veel identieke pagina’s op je website zijn (bijvoorbeeld door filterpagina’s), wordt de maximale crawl capaciteit van je website onnodig verbruikt. Je loopt dan het risico dat andere belangrijke pagina’s van je site niet in de index worden opgenomen.

Het moge duidelijk zijn dat interne duplicate content problemen met zich meebrengt die opgelost dienen te worden. Gelukkig is de oplossing meestal relatief simpel! De volgende mogelijkheden worden het meest gebruikt:

  • 301-redirect - Met een 301-redirect geef je aan dat een pagina die bezocht wordt permanent verplaatst is naar een ander adres (URL). De pagina’s concurreren dan niet meer met elkaar, maar versterken elkaar juist. Alle waarde die is opgebouwd, wordt namelijk doorgestuurd naar de originele pagina.
  • Canonical tag - Een canonical tag (of rel=canonical tag) is een manier om zoekmachines te vertellen dat dezelfde content op nog een andere URL staat en dat die URL leidend is. Canonical tags dienen geplaatst te worden in het head-gedeelte van de HTML-codering. Een canonical tag ziet er als volgt uit:

  • Meta tag robots - Meta tag robots verschaffen extra informatie aan de zoekmachine over de manier waarop ze je website mogen indexeren. Zo kun je een metatag aan een pagina toevoegen om aan te geven dat spiders die pagina niet mogen indexeren, de links al dan niet mogen volgen en of de content als cache aangeboden mag worden.

Externe duplicate content

Externe duplicate content treedt op wanneer andere domeinen jouw content gebruiken, of wanneer je zelf content van een andere partij overneemt. Terwijl interne duplicate content eenvoudig op te lossen is, kan dat een ander verhaal zijn bij externe duplicate content. Een groot deel heb je echter wel zelf in de hand.

 

Externe duplicate content voorkomen doe je in eerste instantie natuurlijk door unieke content op je eigen website te plaatsen. Kopieer dus niet de standaard teksten die je aangeleverd krijgt van je leverancier, maar maak je eigen teksten en voeg waardevolle informatie toe. Zorg dat je relevanter bent voor de eindgebruiker dan je concurrent, en houd daarbij rekening met zoekwoorden. Dit is een erg arbeidsintensief proces, maar absoluut de moeite waard.

content is king yellow online

Er zijn situaties waarin het logisch is dat bepaalde content overgenomen wordt door derde partijen. Denk hierbij aan product feeds, vacatureteksten en persberichten. Hoe je hier het beste mee om kunt gaan, vertel ik aan de hand van een aantal scenario’s.

 

Scenario 1: De vacatureteksten op mijn website worden automatisch opgenomen door grote vacaturesites als Indeed en Monsterboard. Waarom staat Indeed vervolgens bovenaan in de zoekresultaten, terwijl zij in feite schuldig zijn aan duplicate content? Hoe kan ik ervoor zorgen dat mijn eigen website hoger rankt?

 

Wanneer er sprake is van duplicate content, kiest Google welke website het relevantst is. De publicatiedatum is daarbij een belangrijke factor, maar zeker in het geval van vacatures is het voor Google vaak onmogelijk om te bepalen wie de originele bron is. Dat komt omdat de spiders van de populaire zoekmachine niet continu en gelijktijdig alle websites crawlen. Het kan dus best voorkomen dat de website van Indeed eerder gecrawld wordt dan jouw website, terwijl jij de vacature eerder online had staan. In dat geval zou Indeed alsnog aangewezen worden als zijnde de originele bron.

 

De belangrijkste reden waarom grootschalige websites als Indeed zo prominent in de zoekresultaten verschijnen, is omdat er ook andere rankingfactoren een rol spelen. Indeed heeft een zeer sterk linkprofiel opgebouwd, en wordt daarom door Google gezien als autoriteit op het gebied van vacatures. Hoewel Indeed de strijd niet wint met originele content, zijn ze zo sterk op andere vlakken dat ze alsnog bovenaan in de zoekresultaten eindigen.

 

Om de strijd met grote vacaturesites aan te gaan, is het allereerst zaak om ervoor te zorgen dat je eigen website toegevoegde waarde heeft. Kijk of het mogelijk is om extra content toe te voegen die niet wordt overgenomen door derde partijen. Daarnaast is het goed om de vacature-informatie direct op te maken met structured data. Zo zorg je ervoor dat Google altijd de context van de informatie op een pagina begrijpt. Zorg er verder voor dat je een goede, dynamische sitemap hebt en overweeg je publicatie op andere platformen aan paar dagen uit te stellen. Op die manier vergroot je de kans dat jouw website als ‘origineel’ wordt bestempeld.

 

Scenario 2: Om mijn omzet te vergroten, wil ik mijn producten ook op andere platformen aanbieden. Ik wil echter geen problemen krijgen met duplicate content. Hoe pak ik dat aan?

 

Hoewel data feed marketing veel voordelen heeft, schuilt er ook een gevaar: de partij waarmee samengewerkt wordt, is vaak een autoriteit op het web (denk aan Amazon en Bol.com). De kans dat die partij boven je eigen website eindigt, is dan ook aanzienlijk. In principe geldt hier hetzelfde als in scenario 1: zorg ervoor dat je waardevolle content toevoegt die alleen op jouw website staat. Schrijf unieke teksten en stuur derde partijen een andere, minder uitgebreide productbeschrijving.

 

Scenario 3: Ik heb een leuk, uitgebreid blogbericht geschreven dat ik graag wil verspreiden. Hoe voorkom ik problemen met duplicate content?

 

Wanneer je een blogbericht hebt geschreven met het idee om dit zoveel mogelijk te verspreiden, moet je oppassen dat een website met meer autoriteit er niet met jouw content vandoor gaat. Er zijn een aantal manieren om dit te voorkomen:

  • Geef bij de andere partij aan dat ze jouw content mogen kopiëren, maar dat ze wel een canonical tag toe moeten voegen die naar jouw website leidt. Dit is de beste oplossing, omdat alle waarde die gecreëerd wordt op de website van de andere partij dan automatisch naar jouw website gaat.
  • Zorg ervoor dat de andere partij de meta tag “no index, follow” aan de pagina toevoegt. De pagina wordt dan niet door Google geïndexeerd, maar de links worden wel gevolgd.
  • Zorg ervoor dat de andere partij een unieke tekst schrijft over een gerelateerd onderwerp, waarbij middels een follow link verwezen wordt naar het blogbericht.

Conclusie

Hoewel duplicate content je geen penalty op zal leveren, heb je er wel baat bij om dit zoveel mogelijk te voorkomen. Wanneer dezelfde content via verschillende URL’s bereikbaar is, kiest Google welke URL het relevantst is. Dan kan het natuurlijk voorkomen dat Google de voorkeur aan een andere URL geeft dan jij. Zorg er daarom voor dat je aandacht aan zowel interne als externe duplicate content besteedt en zet in op unieke content.

 

Heb je naar aanleiding van dit blogbericht nog vragen over duplicate content of ben je benieuwd wat we bij Yellow-online voor je kunnen betekenen? Neem dan gerust contact met ons op!

 

Ga terug naar overzicht