3).
- O Que é Spamdexamento
Spamdexar ou Spamear search engines
ou "mecanismos de busca" é a prática
deliberativa de criar páginas da web que serão
indexadas pelos mecanismos de busca para aumentar a
chance de um site ou página ser melhor posicionado
no ranking dos resultados, ou para influenciar a categoria
a qual a página será classificada. Muitos
designers de páginas, tentam conseguir um ranking
melhor e mudam o design de acordo com esse objetivo.
A palavra vem de uma junção entre "spamear"
e indexar Spamming + indexing = spamdexing.
Spamdexar
se refere exclusivamente às práticas que
são desonestas e que levam às buscas e
os spiders programas indexadores a, de forma errônea,
dar à uma página uma posição
que ela não merece. Técnicas limpas para
fazer o site ser indexado por mecanismos de busca, sem
enganar o processo de indexação, são
conhecidas como SEO do inglês Search Engine Optimization
- Otimização de mecanismos de busca.
Técnicas SEO não involvem fraudes ou não
na maioria das vezes.
Spammers
de Mecanismos de Busca, por outro lado, estão
geralmente cientes que o conteúdo que eles oferecem
não tem grande utilidade ou relevância
para o Internauta Comum. Mecanismos de Busca se utilizam
de vários algorítimos para determinar
o ranking de relevância de uma página.
Alguns deles incluem se o termo da busca aparece nas
Keywords da META tag, outros se o termo da busca aparece
no corpo do texto da página da web. Uma variedade
de técnicas são usadas para spamdex (veja
abaixo). Muitos mecanismos de busca checam por instâncias
de "spamdexamento" e irão remover páginas
suspeitas dos seus índices (indexes).
A
ascensão do indexamento spammico em meados dos
anos 90 fez com que os mecanismos de busca ficassem
menos úteis. O sucesso do Google, em produzir
resultados melhores, e em combater a fraude de palavras-chaves,
com o seu bem visto (e reconhecido de análise
de links - PageRank, o ajudou a se tornar o mais dominante
site de busca dessa última década (década
essa que viu o seu nascimento). No entanto, apesar do
Google não ter se tornado inútil por causa
do spamdexamento, ele não ficou imune aos mais
novos e sofisticados métodos de fraudes. Google
bombing (Bombeamento ao Google) é uma
outra forma de vandalismo na web, que envolve a criação
de páginas que diretamente afetam o ranking de
outros sites.
Spamdexadores*
devem atuar como consultores, ajudando outros web publishers
à aumentarem os seus rankings usando técnicas
"black-hat". Alternativamente, eles constrõem
sites (próprios) que os beneficiam quando são
rankeados no topo (por confusão do mecanismo
de busca), pois eles criam milhares, ou milhões
de páginas pula-pula (landing pages)
contendo links para os quais o spammer ganha uma comissão
quando alguém efetua uma compra (se o
afiliado for por comissão) ou quando
alguém clica no anúncio (se o
afiliado for por PPC).
Técnicas
comuns de Spamdexamento podem ser classificados em duas
categorias amplas:
Spam de conteúdo e Spam de links.
Spam
de Conteúdo
Essas
técnicas envolvem a alteração da
visão lógica que o mecanismo de busca
tem sobre um determinado conteúdo da página.
Elas são todas variações do Modelo
espaço-vetorial em sistemas de recuperação
da informação em uma coletânea de
textos.
Texto Recôndito ou Invisível
Se
trata da camuflagem de palavras e frases/expressões
lingüísticas, fazendo-as parecerem (ou quase)
com a mesma cor do fundo, ou usando uma fonte fina combinada
a um tamanho reduzido ou até mesmo escondendo-as
com códigos HTML como as seções
"no frame", atributos ALT (aqueles que dão
nomes ás imagens) e seções "no
script". É muito oportuno fazer uma página
parecer relevante á um "web crawler"
(spider, bot , etc..) de forma tal que facilite a aparição
na lista de resultados de busca.
Exemplo:
Um divulgador de um Esquema Ponzi quer atrair internautas
para visitar o site que ele promove o seu SCAM. Ele
coloca textos escondidos referentes á uma banda
muito famosa em sua página, esperando que a página
seja listada como uma página relevante á
buscas feitas sobre a tal banda. Assim ele receberá
muitos visitantes dessa banda, pois a demanda em sites
de busca por essa tal banda é muito grande. Entretanto
nem sempre palavras escondidas classificam uma página
como Spamdexadora.
Por exemplo, as palavras podem aparecer escondidas apenas
pra facilitar a navegação na página.
As combo boxes são essas caixinhas que guardam
várias palavras que ligam diversas páginas.
Elas apesar de estarem escondidas no código não
caracterizam uma prática spamica.
Massificação de Palavras-Chaves
(Keyword Stuffing)
Essa
prática envolve a inserção de texto
escondido ou ramdômico (aleatório) em uma
página para elevar a densidade de palavras ou
o peso das palavras chaves na página. Versões
antigas de programas de indexamento simplesmente contavam
quão frequentemente uma palavra-chave aparecia,
e usava essa informação pra determinar
o nível de relevância. A maioria dos Mecanismos
de Busca modernos já tem a habilidade de analisar/reconhecer
a massificação de palavras chaves e determinar
quando essa freqüência mencionada está
acima do nível normal.
Massificação de META Tags "META
Tags Stuffing"
Trata
de repetir em massa determinadas palavras-chaves nas
META Tags, ás vezes se utilizando de palavras
diversas das relacionadas ao conteúdo do site.
Páginas "Doorway"
Criação
de páginas com baixa qualidade e com muito pouco
conteúdo. Possuem palavras chaves e expressões
em massa também. São páginas Pula-Pula*
que oferecem ao spider um conteúdo, e ao usuário
outro através do uso de códigos de javascript,
php, perl, etc..redirecionando o usuário para
outro conteúdo.
Sites com conteúdo plagiado (Scraper
Sites)
São
páginas que todo o seu conteúdo é
advindo de outras páginas, mas que não
mencionam essas como suas fontes. Geralmente se utilizam
de programação em php pra literalmente
sugar o conteúdo das outras páginas automaticamente.
Muito comum é a presença no Google Adsense.
O principal alvo dessa prática é o Wikipédia.
Muitos sugadores usam Feeds que são vulneráveis.
Assim eles sugam através do RSS o conteúdo,
e o exibem em seu site parecendo que foi criado por
eles mesmos.
O grande problema desses sites é efetivamente
a quebra de direitos autorais. Mesmo o conteúdo
do wikipédia sendo livre, está sob licensa
do GNU Free Documentation License
Spam
de Links
Spam com links levam vantagem em algorítmos baseados
em links, como o algorítimo PageRank do Google,
que dá uma posição mais elevada
ao site quão mais outros sites bem posicionados
linkam para ele. Essas técnicas visam também
influenciar outras técnicas de ranking baseados
em links como o algorítimo HITS.
Fazenda de Links
Envolve a criação de uma comunidade sutíl
de páginas que se linkam mutuamente. Irônicamente
foram apelidadas de Sociedades de Admiração
Mútua.
Links Ocultos
Colocar links onde o usuário não pode
ver apenas pra aumentar a popularidade do link.
Ataque Sybil
Se
refere ao forjamento de uma multiplicidade de identidades
para fins maliciosos. Esse nome veio da famosa paciente
de esquisofrenia Shirley Ardell Mason.
Um spammer pode criar múltiplos sites com diferentes
domínios (subdomínios) que linkam uns
aos outros, como blogs falsos chamados Spam Blogs (Splogs).
Spam em Blogs
Esta
prática se relaciona á colocação
ou solicitação de links ramdomicamente
em outros sites, colocando a palavra chave (ou expressão)
em um texto hyperlink dentro de um link. Livro de visitas,
foruns, blogs e qualquer outro tipo de site que aceita
comentários de usuários são alvos
particulares e geralmente vitimas desse tipo de spam
onde softwares automáticos criam posts sem sentido
que geralmente são irrelevantes e/ou sem sentido.
Splogs
(Blogs Spamicos)
Um
Spam Blog, pelo contrário, é um blog totalmente
falso criado tão e somente com o objetivo de
spammear! Sua natureza é muito semelhante às
fazendas de links.
Páginas HiJacking
Trata-se
da criação de páginas que são
muito semelhantes à uma determinada página,
mas que redireciona o usuário á uma terceira
página, que geralmente é de afiliados.
Vamos supor um domínio www.exemplo.com e que
esse link seja um famoso site de exemplos. Então
é registrado o dominio www.exemplo.net que contém
o mesmo conteúdo do site principal mas que só
difere com a inclusão de um código em
javascript ou alteração no .htaccess que
faça o usuário final ser redirecionado
para uma página de afiliados.
Logs de Referentes
Quando
alguém acessa uma página, que é
referida, seguindo um link para uma outra página,
que é a referente, essa dá o endereço
do referido através do browser de internet do
usuário. Alguns sites tem um log de referentes
que mostra quais páginas linkam para aquele site.
Tendo um robô que acessa ramdomicamente (aleatoriaemente)
muitos sites muitas vezes, com uma mensagem ou endereço
específico dado como referente, a mensagem ou
o endereço de interent aparece no log do referente
todos aqueles sites que tem logs de referentes. Uma
vez que alguns Mecanismos de Busca baseiam a importância
de um site em quantos sites diferentes linkam diretamente
à ele, o spam por log de referecia deve ter sido
usado paara aumentar os rankings dos mecanismos de busca
de sites de spammers, através da obtenção
de logs de referencia de quantos sites linkaram para
eles.
Exemplo:
Eu instalo em meu site um código ou programa
em php que mostra os últimos 10 sites que foram
referentes ao meu site. O spammer junta a lista de sites
que possuem essa característica e faz um bot
pra ramdomicamente ficar acessando os sites. Então
quando o spider passa no site com o pagerank 5 (por
exemplo) o spider vê o meu link no site de pagerank
5 e já me dá o voto positivo.
Compra de Domínios Expirados
Alguns spammers de links monitoram as gravações
de DNS de domínios que vão expirar em
breve, então os compram quando eles vão
expirar e colocam páginas com links para as páginas
deles.
Algumas dessas técnicas podem ser aplicadas para
criar um efeito Google Bomb, isto é, cooperar
com outros usuários para bombar o ranking de
uma página particular para determinada busca,
tecniaca muito utilizada pelos grandes provedores de
intenet.
Outros tipos de Spamdexamento
Sites
Espelho
Hospedando
uma multiplicidade de websites todos com o mesmo conteúdo
mas usando diferentes URLs. Alguns mecanismos de busca
dão um ranking maior para resultados onde a palavra
chave buscada aparece na URL.
Redirecionamentos de URL
Levar
o usuário à outra página sem a
sua própria intervenção, por exemplo
suando META Refresh Tags, CGI scripts, Java, JavaScript,
Redirecionamentos através do Servidor, e outros
meios através do Servidor.
Camuflagem (Cloaking)
Camuflagem
se refere à qualquer forma de mostrar uma página
diferente ao spider do mecanismo de busca daquele que
vai aparecer para os usuários humanos. Pode ser
uma tentativa de tapear os mecanismos de busca considerando
o conteúdo de determinado site. Entretanto, camuflagem
pode também ser usado para eticamente aumentar
a acessibilidade de um site para usuários com
dificuldades (ou demandas de caráter especial),
ou para prover aos usuários humanos conteúdo
que os mecanismos de busca não são capazes
de processar. Pode ser usado, também para fornecer
conteúdo baseado na localização
do usuário; Google por exemplo usa o fornecimento
de IP, como uma forma de camuflagem para entregar resultados.
Uma forma dessa troca de código é: otimizar
uma página para o top do ranking, e depois trocar
por outra página uma vez que o topo já
foi alcançado.
As
seguintes formas são também vastamente
conhecidas como spam ou "black hat":
Páginas Doorway
Fazendas de Links
Googlando (Googleating)
De forma alguma incentivamos esses tipos de práticas.
O artigo visa conscientizar os WEBMASTER de todas as
atividades fraudulentas as quais ele não pode
fazer para promover o seu site. Se hoje em dia, os mecanismos
de busca, diretórios, e outros tem preconceito
com relação à sites que discutem
formas de remuneração online é
devido à esse tipo de prática. Que é
nosciva à internet!
O artigo traz informaçoes e conhecimento necessário
para que vocês possam evitar esse tipo de prática
e denunciar sites que se utilizam dessas páginas.
Denuncie
Google
- Clique
aqui
Yahoo - Clique
aqui
Spamdexamento,
assim como seus derivativos (spamdexar, etc), é
um neologismo em português, criado por mim, na
tentativa de apresentar uma forma lexical compatível
com a versão em inglês.
**Páginas Pula-Pula foi uma terminologia criada
por mim para retratar a natureza de "jump pages"
<<<
Voltar Para Manual - Proximo
Capitulo >>>