Mejora de la relevancia semántica por SEO
-
Upload
arnaud-valadie -
Category
Data & Analytics
-
view
321 -
download
3
Transcript of Mejora de la relevancia semántica por SEO
RESUMEN 1. Datos brutos 2. El concepto de contenido ú1l 3. El concepto de relevancia semán1ca 4. Recapitulamos 5. Conclusiones 6. Anexos
4
Conocer toda la red es diMcil • La red mundial con/ene más de 60 trillones de páginas… y se expande unos 11
millones de páginas adicionales todos los días • Si se quisiera ver cada página una vez por día, habría que rastrear 1.902.587 de
páginas por segundo • Cada año 912.500.000.000.000.000.000 octetos de información son publicados
en el mundo. Es decir, 912,5 exaoctetos por año (es/mación hecha en 2012 por IBM)
-‐ Casi el 30% de la red mundial es contenido duplicado
Fuente: h"ps://www.google.com/intl/fr/search/about/insidesearch/howsearchworks/thestory/
5
Comunicar con palabras es ambiguo -‐ 93.077 palabras (lemas) en el diccionario de la RAE -‐ Algunas palabras son omnipresentes : El + de = 13,11% de las palabras del Corpus de Referencia
del Español Actual (57.697 entradas) -‐ 15,17% de palabras está en desuso (aparecen en el diccionario 14.128 acepciones en desuso
repar/das en 11.327 entradas) -‐ 72,06% de las palabras no aparece casi nunca en la lista de frecuencias del Corpus -‐ 10.000 palabras forman el 98,63% del Corpus -‐ En la vigésima tercera edición del diccionario hay 1.337 nuevos lemas (variación leve de +1,44%) -‐ Los cinco lemas más largos del diccionario son contencioso-‐administra1vo,
electroencefalografista, in pár1bus infidélium, esternocleidomastoideo y electroencefalográfico.
Fuente: h"p://www.rae.es/ y h"p://dirae.es/
6
Clasificar es costoso -‐ Google invir/ó en 2013, 1.600 millones de dólares en solo 3 meses para centros
de datos -‐ Hoy un centro de datos consume 50 MW al año (una ciudad de 50.000 personas).
En 2011, había 40 centros de datos. Serían 2.000 MW, es decir 2 centrales nucleares o 1.500 turbinas eólicas
-‐ El tráfico de los centros de datos de Google representa el 7% del tráfico de la red mundial
Fuente: h"p://www.theguardian.com/business/2013/aug/23/spending-‐on-‐data-‐centres-‐reaches-‐150-‐billion-‐dollars h"p://www.lemondeinformaAque.fr/actualites/lire-‐datacenters-‐les-‐nouveaux-‐pollueurs-‐58428.html
7
Responder rápidamente es fundamental -‐ En 2011, Kyle Rush, de la campaña presidencial de Barack Obama, enseñaba que
una bajada de 3 segundos del 1empo de carga (5 a 2 segundos) aumentaba el volumen de donaciones en un 14%
-‐ Amazon calculó que tenía una pérdida anual de 1.600 millones de dólares por cada segundo adicional en el /empo de carga
-‐ Google trata entre 30.000 y 40.000 búsquedas por segundo y /ene un promedio de respuesta de 1/8 de segundo (0,125 segundos). Empeorando su 1empo en 0,4 segundos pierde 8 millones de búsquedas por día
Fuente: h"p://velocityconf.com/velocity2013/public/schedule/detail/28316 h"p://www.cisco.com/c/en/us/soluAons/collateral/service-‐provider/visual-‐networking-‐index-‐vni/VNI_HyperconnecAvity_WP.html
0
10
20
30
40
50
2014 2015 2016 2017 2018 2019
Previsiones banda ancha (en Megaoctetos/segundo)
Fuente: Cisco, 2015 Asia Pacific
La/n America
North America
Western Europe
Central and Eastern Europe
8
Consecuencias
Buscadores
• Obligación de trabajar en paralelo • No se debe mirar la misma página varias veces • Hay que evitar duplicidades
Webs
• Responder rápidamente • Tener autoridad • Presentar contenido ú/l • Excelente nivel de redacción • Contenido correctamente clasificado • Enlazar documentos similares
10
Necesidad informacional Necesidad informacional/ búsqueda
Resultados
Un documento es relevante si responde a la necesidad informacional del usuario. Por otro lado: -‐ 85% de los usuarios solo
consultan la primera página de Google
-‐ 75% de las búsquedas no son reformuladas
11
¿Quién se posiciona mejor en España?
Fuente: h"p://suite.searchmetrics.com/es/research/visibility-‐charts/organic/visibility?cc=ES&acc=142889&p=0
12
¿Entonces es fácil hacerse rico?
Fuente: h"p://ms-‐managementsoluAons.es/
-‐ Generar millones de páginas de todas las temá/cas y expresiones de búsqueda posibles (resultados de búsqueda, textos generados con soiwares de spinning o feed automa/zado)
-‐ Incluir millones de enlaces op/mizados dentro de las páginas
-‐ Subir sitemaps para dar a conocer las páginas
-‐ Incluir publicidad para mone/zar
13
La era post-‐panda/ penguin
Fuente: h"p://www.sistrix.es/blog/indexwatch-‐2014-‐los-‐dominios-‐perdedores-‐de-‐2014/
Generar contenido masivamente en 2015 no es suficiente. Hay que generar contenido relevante.
14
Criterios fundamentales
www
Contenido textos relevantes
únicos Enlaces propiedades de los caminos
Autoridad índice de confianza
y volumen de citaciones Semán1ca posicionamiento temá/co
por cluster
15
A evitar
www
Contenido textos duplicados
Enlaces descontrolados, redundantes
Autoridad varios dominios y subdominios, nombres largos con guiones, extensiones pocas usadas
Semán1ca intentar estar en todas las
temá/cas
17
¿Qué es la op1mización semán1ca?/ on page
URL: h"p://www.elconfidencial.com/elecciones-‐municipales-‐y-‐autonomicas/2015-‐06-‐01/ada-‐colau-‐plantea-‐desobedecer-‐leyes-‐injustas-‐y-‐poner-‐limites-‐al-‐turismo-‐en-‐barcelona_865549/
E1quetas SEO
Estructuración Hn
Enlaces contextuales
19
¿Es relevante contar las ocurrencias?
Fuente: h"p://www.seoquake.com/
Si contamos las repe/ciones de 1 palabra o de expresiones con varias palabras, solo salen contenidos irrelevantes
20
El concepto de relevancia semán1ca
La relevancia es un concepto semán/co dikcil de definir. Dentro de paginas web, nos gustaría ser capaces de encontrar contenidos similares a la búsqueda del usuario. Para esto, nos gustaría ir a cada página y luego comprobar todas las demás para hacer un matching y una valoración. La capacidad del sistema para ordenar los resultados de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y la consulta, se llama relevancia parcial. La ponderación de los términos en los documentos, no limitándose a señalar la presencia o ausencia de los mismos, permite asignar a cada término en cada documento un número que refleje su importancia en el documento. La ponderación de los términos en la consulta, asigna pesos a cada palabra de la consulta que reflejen su importancia en relación a la necesidad informa1va.
21
Hashing
Usando una función matemá/ca de Hashing, conver/mos el contenido texto de una página en una serie única de números. Comparando varios hash de una web, se pueden detectar duplicidades muy fácilmente.
Fuente: Screaming frog h"p://www.screamingfrog.co.uk/seo-‐spider/
Problema No tenemos información semán/ca, por lo que no sabemos de qué habla el texto
22
Jornadas de y
Open Data
de datos -‐
Wikipedia , la
enciclopedia libre
Bolsa de palabras
Comparamos 2 series de palabras para sacar las que son iguales en las 2 series. Ejemplo comparamos las 2 e/quetas TITLES del Top1 y Top2 en Google España por la búsqueda “Periodismo de datos”: -‐ Jornadas de Periodismo y Open Data -‐ Periodismo de datos -‐ Wikipedia, la enciclopedia libre
Perio-‐dismo
Problemas -‐ Falta una ponderación (q/
idf, coseno de Salton, …) -‐ Falta la definición de
stopwords para quitar el ruido alrededor del contenido editorial (arrculos, preposiciones)
-‐ Falta descartar los footers, headers, …
23
Shingles
El problema con la "bolsa de palabras" es que no /ene en cuenta el contexto de las palabras. En par/cular, las palabras que rodean las otras palabras de la página. Por tanto, en lugar de simplemente tratar cada página de una web como una bolsa de palabras, vamos a considerarla como un conjunto de expresiones de varias palabras imbricadas. Este método (en base a un calculo algorítmico) se conoce como “Shingles” porque cada frase se superpone a sus vecinas, al igual que las tejas de un tejado.
URL: SMP/ h"p://www.elconfidencial.com/elecciones-‐municipales-‐y-‐autonomicas/2015-‐06-‐01/ada-‐colau-‐plantea-‐desobedecer-‐leyes-‐injustas-‐y-‐poner-‐limites-‐al-‐turismo-‐en-‐barcelona_865549/
24
Shingles vs literatura
Visualización de los shingles de 1984 de Georges Orwell (96.365 palabras)
URL: SMP/ h"p://ocw.uca.es/pluginfile.php/1485/mod_resource/content/1/1984.pdf
25
Shingles vs teatro
En el ejemplo del análisis semán/co de La gaviota de Antón Chejov (18.208 palabras) vemos que podemos analizar tanto un corpus entero como partes relevantes de la estructura por separado (los actos por ejemplo)
Acto 1
Acto 4
URL:SMP/ h"p://www.edu.mec.gub.uy/biblioteca_digital/libros/c/Chejov,%20Anton%20-‐%20La%20gaviota.pdf
26
N-‐grams de Google
Google ha puesto en marcha en 2010, una herramienta de análisis por N-‐grams (equivalentes a Shingles) para visualizar datos estadís/cos en base a su corpus de libros de Google Books (la base de datos se puede descargar en 23 idiomas diferentes y cubre los años 1800 a 2008).
Fuente: h"ps://books.google.com/ngrams
28
A evitar
irrelevancia
Incluir palabras que ocultan la
temá1ca
Redactar sin conocer la temá1ca
Usar un lenguaje ambiguo
Omi1r palabras singulares de la
temá1ca
Pedir la redacción de
textos a personas que no son
na1vos del país
30
Análisis de contenido on page
Fuente: SMP/ h"p://periodismodatos.okfn.es/ -‐ 99.681 palabras incluyendo código fuente
32
Análisis de textos de enlaces
Fuente: SMP/ h"p://periodismodatos.okfn.es/ -‐ solo textos de enlaces
35
Shingles/ Web de María Dolores de Cospedal
Fuente: SMP/ h"ps://presidentacospedal.com/
Mis ideas
Realidades
Pagina de inicio
38
Herramientas gra1s/ extensiones (ejemplos)
Crawl Xenu Site orbiter
Análisis on page Web developer Firebug SEO quake
Análisis de los SERPs SEO quake
Performance Pagespeed Yslow Webpage test
39
Herramientas de pago (lista no exhaus/va)
Shingles SMP
Creación de textos op1mizados Master spin
Crawl/ análisis de logs Advanced SEO toolbox (ATB) Bo/fy Harobaz Screaming frog (sin logs)
Análisis de los SERPs Advanced SEO toolbox (ATB)
41
Sugerencias
Siempre pensar en términos de con1nuidad semán1ca
Rodear las páginas existentes de contenidos con una relación estrecha, y ampliar
progresivamente
Contextualizar con la técnica del comunicado de prensa (Quién, qué, dónde,
cómo, por qué)
Adquirir o desarrollar una herramienta de
cálculo de similaridad para evitar malas sorpresas
Siempre monitorizar los resultados en los buscadores en base a un corpus de calidad para
sacar conclusiones
43
Shingles/ periódicos españoles
Fuente: SMP/ Paginas de inicio de periodicos y radio el 03/06/2015
Pagina de inicio/ Elconfidencial.com
Pagina de inicio/ Eldiario.es
Pagina de inicio/ Elmundo.es
Pagina de inicio/ Elpais.com
Pagina de inicio/ Marca.com
44
Shingles/ radios españolas
Fuente: SMP/ Paginas de inicio de periodicos y radio el 03/06/2015
Pagina de inicio/ Cadenaser.com
Pagina de inicio/ RTVE.es
45
Shingles/ New York Times
Fuente: SMP/ Paginas de inicio de periodicos y radio el 03/06/2015
Pagina de inicio/ Ny/mes.com
Pagina Opinions