Minulla on verkkosivusto asiakkaalle, jossa hän näyttää suuren tietokannan tiedoista, jotka he ovat keränneet tarkasti ja hitaasti vuosien varrella. He etsivät tietojaan verkosta eri paikoissa. Enemmän kuin todennäköistä johtuu siitä, että kaavin käy läpi heidän verkkosivunsa sivulta ja purkaa tarvitsemansa tiedot omaan tietokantaan. Ja jos ihmettelet, he tietävät, että se on heidän tietonsa, koska heidän sivustonsa jokaisessa luokassa on yksi istutettu tieto.
Olen tehnyt paljon tutkimusta tästä parin viime päivän ajan, ja voin kertoa teille, ettei ole olemassa täydellistä kattava ratkaisua. Olen kuitenkin löytänyt useita asioita, jotka tekevät tämän tekemisestä heille hieman vaikeampaa. Tätä olen toteuttanut asiakkaalle.
Ajaxified sivutut tiedot
Jos sinulla on paljon sivunumeroituja tietoja ja sivutat tietojasi lisäämällä vain toisen numeron URL-osoitteen loppuun, ts. Http://www.domain.com/kategoria/ohjelmointi/2 - Sitten olet tekemässä indeksoijan työ paljon helpompaa. Ensimmäinen ongelma on, että se on helposti tunnistettavassa kuviossa, joten kaavin asettaminen irti näille sivuille on helppoa kuin piirakka. Toinen ongelma, riippumatta luokan seuraavien sivujen URL-osoitteista, on todennäköisempää, että seuraavan ja edellisen linkin ne lukittavat.
Lataamalla sivun sisältämät tiedot javascriptin kautta ilman sivun uudelleenlatausta, tämä vaikeuttaa huomattavasti monien siellä olevien kaavintajien työtä. Google aloitti vasta äskettäin javascriptin jäsentämisen sivulla. Tämänkaltaisten tietojen uudelleenlataamiseen ei ole haittaa. Tarjoat Googlelle muutaman vähemmän sivuja indeksoitavaksi, mutta teknisesti kaikkien sivutetun tiedon pitäisi joka tapauksessa osoittaa juurikategorian sivulle kanonisoinnin avulla. Ajaxify sivutut tietosivut.
Satunnaista mallin lähtö
Kaapimet mukautetaan usein hiukan tietosi mukaan. Ne lukittuvat tiettyyn div-tunnukseen tai luokkaan otsikkoa varten, 3. solu jokaisella rivillä kuvauksellesi jne. Useimmille kaavintaureille on helposti tunnistettavissa oleva malli, joka toimii suurimman osan samasta taulukosta tulevan tiedon kanssa, näkyy samalla mallilla. Satunnaista jako- ja luokanimet, lisää tyhjät taulukon sarakkeet satunnaisesti 0-leveydellä. Näytä tietosi yhdellä sivulla olevassa taulukossa, tyylillisissä osissa ja yhdistelmänä toisella mallilla. Esittämällä tietosi ennustettavasti, ne voidaan kaavittaa ennustettavasti ja tarkasti.
Hunajapurkki
Tämä on melko siisti yksinkertaisuudestaan. Olen törmännyt tähän menetelmään useilla sivuilla sivuston kaapimisen estämisestä.
- Luo palvelimellesi uusi tiedosto nimeltään gotcha.html.
- Lisää seuraava robots.txt-tiedostoon:
Käyttäjä agentti: *
Estä: /gotcha.html
Tämä käskee kaikkia robotteja ja hämähäkkejä indeksoimaan sivustosi indeksoimatta tiedostoa gotcha.html. Kaikki normaalit verkkoindeksoijat kunnioittavat robots.txt-tiedostosi toiveita eivätkä pääse siihen tiedostoon. eli Google ja Bing. Voit todellakin toteuttaa tämän vaiheen ja odottaa 24 tuntia ennen siirtymistä seuraavaan vaiheeseen. Tämä varmistaa, että indeksointirobotti ei vahingossa estä sinua, koska se oli jo indeksoinnin puolivälissä, kun päivitit robots.txt-tiedostoasi. - Sijoita linkki gotcha.html-tiedostoon jonnekin verkkosivustollesi. Ei ole väliä missä. Suosittelen alatunnisteessa kuitenkin, että tämä linkki ei ole näkyvissä CSS: ssä, näyttö: ei mitään;
- Nyt kirjaa tälle sivulle vieraillun henkilöstön IP / yleiset tiedot ja estä heidät. Vaihtoehtoisesti voit keksiä komentosarjan, joka antaa heille vääriä ja roskatietoja. Tai ehkä mukava henkilökohtainen viesti sinulle.
Tavalliset web-katsojat eivät näe linkkiä, joten sitä ei vahingossa napsauteta. Hyvämaineiset indeksoijat (esimerkiksi Google) kunnioittavat robots.txt-tiedostosi toiveita eivätkä käy tiedostossa. Joten ainoat tietokoneet, joiden pitäisi kompastua tälle sivulle, ovat tietokoneet, joilla on vahingollisia aikomuksia, tai joku katselee lähdekoodiasi ja napsauttaa satunnaisesti ympäriinsä (ja no, jos niin tapahtuu).
Muutamasta syystä tämä ei välttämättä aina toimi. Ensinnäkin, monet kaapimet eivät toimi kuten tavalliset indeksointirobotit, eivätkä vain löydä tietoja seuraamalla jokaista linkkiä jokaiselta sivustosi sivulta. Kaapimet on usein rakennettu kiinnittymään tietyille sivuille ja seuraamaan vain tiettyjä rakenteita. Kaavin voidaan esimerkiksi käynnistää luokkasivulta, ja sitten käsketään käydä vain URL-osoitteissa, joissa on etana sanat / tiedot. Toiseksi, jos joku käyttää kaavinsa samassa verkossa kuin muut, ja käytössä on jaettu IP, sinun on kiellettävä koko verkko. Sinulla olisi todellakin oltava erittäin suosittu verkkosivusto, jotta tästä tulee ongelma.
Kirjoita tietoja kuviin lennossa
Löydä pienempi tietokenttä, ei välttämättä pitkät tekstimerkkijonot, koska se voi tehdä sivun muotoilusta hieman vaikeampaa. Tulostamalla nämä tiedot kuvan sisällä, olen varma, että melkein jokaisella ohjelmointikielellä on menetelmiä tekstin kirjoittamiseen kuvaan dynaamisesti (php, imagettftext). Tämä on luultavasti tehokkainta numeerisilla arvoilla, koska numerot tarjoavat paljon merkityksettömän SEO-edun.
vaihtoehto
Tämä ei ollut vaihtoehto tälle projektille. Sisäänkirjautumisen vaatiminen tietyn määrän sivun katselujen jälkeen tai rajoitetun määrän tietojen näyttämistä ilman kirjautumista. Toisin sanoen, jos sinulla on 10 saraketta, näytä vain 5 kirjautumattomille käyttäjille.
Älä tee tätä virhettä
Älä vaivaudu yrittämästä löytää jonkinlaista ratkaisua, joka perustuu robotin käyttäjän edustajaan. Kaapuri, joka tietää mitä tekee, voi helposti huijata nämä tiedot. Esimerkiksi google-botti voidaan helposti jäljitellä. Et todennäköisesti halua kieltää Googlea.
