Proteccion Contra Black SEO
-
Upload
jesus-estevez -
Category
Documents
-
view
222 -
download
1
Transcript of Proteccion Contra Black SEO
-
8/8/2019 Proteccion Contra Black SEO
1/6
1
Hacking para el posicionamiento en buscadores y cmo controlarlo desde la lnea de
comandos.
AUTORES: Enrique Rando Gonzlez y Jos Mara Alonso Cebrin.
LICENCIA: Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 Espaa
(http://creativecommons.org/licenses/by-nc-sa/3.0/es/)
1.- Introduccin.
Hoy en da es muy fcil estar en Internet. Lo realmente difcil es ser visibles y recibir visitas.
Es un hecho que la inmensa mayora de las personas utilizan buscadores como Google, Bing, o
Yahoo! para localizar la informacin. Y otro que, casi siempre, algunos enlaces de la primera pginade resultados son visitados. En muchas ocasiones se consultan los de la segunda. Hay quien,
incluso, accede a algunas de las direcciones listadas en la tercera. Pero casi nadie pasa de ah.
Aparecer en la quinta pgina de resultados es casi lo mismo que no aparecer. Y, para una empresa
u organizacin, eso puede significar no tener relevancia en el sector, no hacer negocio, carecer de
publicidad En definitiva, no existir.
No es de extraar, pues, que se desarrollen tcnicas de SEO (Search Engine Optimization -
Optimizacin para Motores de Bsqueda) y que existan organizaciones que ofrecen servicios de
promocin de webs y, en particular, de posicionamiento en buscadores. Y, aunque la inmensa
mayora actan de forma intachable, existen algunas cuyas prcticas rebasan la lnea de lo moral, eincluso de lo legal. Sobre todo, aquellas que promocionan sitios relacionados con actividades ilcitas,
tales como la venta ilegal de frmacos o la infeccin de equipos con malware.
En este trabajo se presentarn primero los riesgos que esto puede suponer para una organizacin ,
pasando despus a mostrar cmo un uso adecuado de las herramientas accesibles desde la shell de
un sistema Linux , automatizado a travs de programacin de shell-scripts, puede ayudar a
monitorizar, detectar y controlar los problemas as como a implantar una poltica adecuada en
materia de seguridad y administracin de sistemas.
2.- Telaraas de enlaces
La palabra clave para muchas de estas empresas dedicadas al posicionamiento es Pagerank. El
Pagerank es una medida de la relevancia de una determinada pgina web con respecto a una
determinada bsqueda. A mayor Pagerank, mejor posicin en las pginas de resultados de los
buscadores (SERP - Search Engine Result Page).
El Pagerank se logra, bsicamente, consiguiendo que otras pginas incluyan enlaces a las propias.
Cuanto ms relevantes sean, ms Pagerank aportarn. En definitiva, obtener enlaces que apunten a
las pginas de un sitio web forma parte fundamental de su promocin y su posicionamiento en
buscadores.
-
8/8/2019 Proteccion Contra Black SEO
2/6
2
Y, en esta tarea, hay quien acta de forma poco tica. Por ejemplo, inundando foros, blogs y otros
sitios participativos con comentarios y posts que nada tienen que ve con los temas all tratados. O
creando cuentas en distintas plataformas, cuyos perfiles incluyen enlaces a los sitios a promocionar.
Incluso hay herramientas que permiten realizar estas actividades de forma automtica, cuya
sofisticacin las lleva a ser capaces de resolver los sistemas de CAPTCHA y similares con que
muchos sistemas intentan protegerse de las entradas automatizadas.
Pero algunas veces no acaba ah la cosa y se llega a vulnerar la seguridad de los sitios web para
insertar contenidos en ellos de forma ilcita. En muchas ocasiones, se usan tcnicas basadas en
tecnologas como, por ejemplo, Javascript, Hojas de Estilo en Cascada (CSS) o redirecciones HTTP
para hacer que estos contenidos slo sean visibles para los buscadores y no para las personas. De
este modo hacen ms difcil su deteccin y eliminacin por parte de los webmasters.
En todo caso, el dao para la imagen de la organizacin afectada puede ser significativo. Adems,
se estara haciendo uso de los medios y recursos de dicha organizacin para realizar actividades
ajenas a ella y, en algunos casos, ilegales.
3.- Medidas de proteccin
Ante este tipo de amenazas, se hacen imprescindibles una correcta administracin de los servicios
prestados, una adecuada proteccin de los sitios webs y una constante monitorizacin de los
contenidos indexados por los buscadores.
Por fortuna, existen herramientas y buenas prcticas que pueden servir de ayuda. As, por ejemplo,WordPress pone a disposicin de sus usuarios una herramienta llamada Akismet que permite
controlar el SPAM en los comentarios a las entradas en los blogs. Para ms informacin, puede
consultarse http://es.wordpress.com/features/
Las medidas tcnicas y organizativas tambin deber ser tenidas en cuenta. En general, mientras un
sistema sea til, debe mantenerse continuamente actualizado. Y, por supuesto, debe estar sometido
a los adecuados controles y auditoras de seguridad. Cuando deje de ser necesario debe ser puesto
fuera de servicio o hacer imposible su posterior actualizacin as como la creacin de nuevas
cuentas de acceso.
Por otro lado, los servicios de web participativa (foros, wikis, plataformas de teleformacin, etc.)tambin han de ser cuidadosamente vigilados en busca de contenidos inadecuados. Las altas de
nuevos usuarios deben requerir autorizacin por parte de un administrador y sus perfiles pblicos
deben ser sometidos a posteriores auditoras.
Para conseguir todos estos objetivos es imprescindible llevar a cabo una monitorizacin activa de los
resultados que ofrecen los buscadores para los sitios web de la organizacin. De este modo se
podr determinar la existencia o no de contenidos inadecuados, determinar cmo fueron introducidos
y realizar las actuaciones necesarias para eliminarlos, as como tomar las medidas oportunas para
que no vuelvan a producirse en el futuro.
-
8/8/2019 Proteccion Contra Black SEO
3/6
3
Pero este tipo de tareas son prcticamente imposibles de llevar a cabo si no se cuenta con las
herramientas apropiadas. A continuacin se presenta una solucin automatizada de comprobacin
de contenidos utilizando herramientas accesibles desde la shell de Linux y otros sistemas operativos
*nix.
4.- Herramienta automtica de monitorizacin, deteccin y reporte.
La siguiente imagen muestra la arquitectura general de la solucin propuesta:
Figura 1. Esquema de la solucin propuesta.
Como puede observarse, se ha dividido el proceso en tres fases.
4.1.- Bsqueda
-
8/8/2019 Proteccion Contra Black SEO
4/6
4
En la primera de ellas se hace uso de los buscadores para localizar resultados sospechosos. Como
datos de partida se necesitan:
- Una lista de dominios a monitorizar
- Una lista de bsquedas que permitan localizar pginas sospechosas de haber sufrido algn tipo de
ataque.
Combinando ambas se realizaran peticiones a los buscadores del tipo:
site:example.com cheap viagra
Los shell-scripts que automatizan estas peticiones usan herramientas de lnea de comandos como
curl. Posteriormente, las pginas web devueltas por el buscador (SERP) se analizan mediante
guiones awk(se consider la posibilidad de herramientas ms sofisticadas, como lexy yacc, pero
awk proporciona el grado necesario de flexibilidad con menos requisitos de programacin).
Para cada resultado, el buscador proporciona un ttulo y la correspondiene URL. Tambin puede
proporcionar una vista preliminar de la pgina o parte de ella y una URL a una copia de la pgina
mantenida por el buscador (cache).
La lista de resultados es filtrada comparndola con una lista de URLs a excluir del anlisis. De este
modo se ignorarn aquellas pginas web legtimas que puedan contiener las cadenas buscadas, las
que tengan problemas conocidos y estn en proceso de solucin, etc.
4.2.- Anlisis
En la segunda fase, los resultados sospechosos son sometidos a anlisis para determinar la
existencia de problemas, as como las caracterstica de stos.
Para ello se intenta determinar si se trata de un abuso a un servicio participativo (foro, blog, wiki,
etc.) demasiado permisivo o si, por el contrario, se ha producido una vulneracin de la seguridad del
sitio web.
Un anlisis de las URLs y de la estructura interna de la pgina web ayudan a determinar la
naturaleza y caractersticas del sistema. As, la aparicin reiterada de ciertas cadenas de texto, como
forum, post, thread, showthread, etc. pareceran sealar que el objeto del estudio es un foro.
Por otro lado, es frecuente que las pginas que han sido objeto de modificaciones ilegtimas oculten
el texto aadido haciendo uso de CSS, a veces combinado con JavaScript. La aparicin de estos
elementos justo antes de los enlaces puede sealar la existencia de problemas de seguridad.
Tambin se han observado casos en que, con objeto de dificultar la deteccin de las modificaciones,
los ciberdelincuentes hacen que el contenido de la pgina devuelta dependa de los valores de los
campos User-Agent y/o Referer de la peticin HTTP. Por ejemplo, los enlaces ilegtimos slo se
muestran si el User-Agent se corresponde con el de un robot de un motor de bsqueda o si se llega
a la pgina haciendo clic en un resultado de un buscador.
-
8/8/2019 Proteccion Contra Black SEO
5/6
5
Por esta razn, puede ser necesario intentar descargar la pgina sospechosa modificando el User-
Agent por el de un buscador, o bien introduciendo un Referer que simule la realicacin de una
bsqueda.
Hay incluso veces en que se condiciona la aparicin de los enlaces a que la IP de la mquina que
realiza la peticin sea de un buscador. En este caso, la forma ms sencilla de contemplar el
contenido de la pgina tal y como la recibe el buscador es consultar la versin que ste guarda en su
cache. Estas caches llevan asociada la fecha en la que se guardaron, la cual puede servir para
asociar un cierto grado de certeza a las conclusiones que se obtengan.
De la comparacin de todas estas pginas con patrones indicadores de la existencia de problemas
se determinar una lista de URLs a reportar, cada una de las cuales llevar asociado un tipo de
problema y, posiblemente, un grado de certeza acerca de las conclusiones alcanzadas.
4.3- Reporte
Con la informacin obtenida en la fase anterior se crea un informe en formato HTML que podr ser
enviado al administrador de forma automtica por correo electrnico.
Dicho informe consta de tres secciones:
- Datos del proyecto: que incluir informacin acerca de la persona o entidad que realiz el anlisis,
la fecha, los dominios objeto de estudio y un diagnstico general del estado encontrado.
- URLs reportadas: con lasURLs que se consideraron dignas de mencin, hiperenlaces a ellas y una
breve explicacin de los problemas que puedan sufrir.
- Anexos: Con informacin ms detallada de los distintos tipos de problemas, posibles soluciones,consejos, ejemplos de cdigo, enlaces a pginas tiles, etc.
Los resultados del informe se podrn utilizar tanto como ayuda para la eliminacin de las situaciones
detectadas como para implantar polticas que mejoren la gestin de los sistemas y prevengan la
aparicin en el futuro de nuevos problemas.
4.4.- Programacin de Tareas
El proceso completo de bsqueda, anlisis y reporte se realiza de forma automtica sin requerir la
intervencin del usuario. Toda la informacin de configuracin se guarda en ficheros de texto. Esto
hace posible programar tareas que lancen peridicamente el proceso, obtenindose un grado casi
total de automatizacin.
5.- Resumen
Cualquier sitio web, independientemente de la informacin que maneje o de su relevancia, es un
objetivo para los ciberdelincuentes que intentan conseguir espacios en los que introducir enlaces y
otros contenidos ilcititos.
-
8/8/2019 Proteccion Contra Black SEO
6/6
6
Una medida a considerar para hacer frente a este tipo de amenazas es el uso de herramientas
automatizadas para la deteccin y control de los resultados ofrecidos por los buscadores, como la
aqu presentada.
6.- Referencias:
SEO, http://es.wikipedia.org/wiki/Posicionamiento_en_buscadores
Pagerank, http://es.wikipedia.org/wiki/PageRank
CAPTCHA, http://es.wikipedia.org/wiki/Captcha
Tcnicas SEO para gente de moral relajada , Jos Mara Alonso Cebrin y Enrique Rando
Gonzlez, http://elladodelmal.blogspot.com/2009/10/seo-para-gente-de-moral-relajada-i-de.htmlCSS
Curl, http://curl.haxx.se/
Awk, http://es.wikipedia.org/wiki/AWK
Lex, http://es.wikipedia.org/wiki/Lex_%28inform%C3%A1tica%29Yacc, http://es.wikipedia.org/wiki/Yacc
User-Agent, http://es.wikipedia.org/wiki/Agente_de_usuario
Referer, http://en.wikipedia.org/wiki/HTTP_referrer