Yandex algoritme

Voormalige werknemer lekt Yandex-broncode meer dan 1.900 factoren die door zoekmachines worden gebruikt om websites in zoekresultaten te rangschikken.

Meerdere media hebben al bericht over deze hack.

Bij diib zijn we bezig met het analyseren van deze gegevens. We zullen de factoren hier plaatsen, Zowel in het origineel (Russisch) als de vertalingen naar het Nederlands en Engels.. Vervolgens zullen we over enkele weken onze analyse publiceren.

Dagelijks voegen wij hier zoveel als mogelijk informatie toe.

 

 1. Текстовая релевантность (maxfreq – частота самого частого слова, которая имеет смысл длины документа
  Tekstrelevantie (maxfreq - de frequentie van het meest voorkomende woord, wat de lengte van het document aangeeft
  Text relevance (maxfreq - the frequency of the most frequent word, which makes sense of the length of the document

 2. Линковая релевантность. Фактор ремапится
  link relevantie. Opnieuw toewijzen van factoren
  link relevance. Factor remapping


 3. текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
  tekst prioriteit. De factor is binair, heeft een waarde van 0 voor alle verzoeken van één woord en een waarde van 1 voor bijna alle verzoeken van twee of meer woorden, met uitzondering van een zeer klein aantal antwoorden waarvoor geen enkele link is geslaagd voor de quorum, en de tekst heeft het quorum ook niet gehaald.
  text priority. The factor is binary, has a value of 0 for all single-word requests, and a value of 1 for almost all two or more word requests, except for a very small number of answers for which there is not a single link that passed the quorum, and the text also did not pass the quorum.


 4. Приоритет strict для TR - текстовый приоритет - есть все слова запроса где-то в документе (при этом они проходят контекстные ограничения запроса, например, оба слова д.б. в одном предложении).
  De strikte prioriteit voor TP: is tekstprioriteit - er zijn alle zoekwoorden ergens in het document (terwijl ze de beperkingen van de zoekcontext doorstaan, moeten beide woorden bijvoorbeeld in dezelfde zin staan).
  The strict priority for TP is text priority - there are all query words somewhere in the document (while they pass query context restrictions, for example, both words should be in the same sentence). 5. Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе.
  De woordgroepprioriteit voor TP is een tekstprioriteit - er staan ​​alle zoekwoorden op een rij in het document.
  The phrase priority for TP is a text priority - there are all query words in a row in the document.

 6. (strict) есть все слова запроса в одном линке.
  (strikt) alle zoekwoorden in één link hebben.
  (strict) have all query words in one link.

 7. (phrase) есть все слова запроса подряд в одном линке.
  (zin) heeft alle zoekwoorden op een rij in één link.
  (phrase) has all query words in a row in one link.


 8. Наличие точной фразы (текста запроса) в заголовке (если точнее, в первом предложении документа). Контекстные ограничения и стоп слова учитываются в точности как в TRp2, т.е. factor[8] minors factor[5]
  De aanwezigheid van de exacte woordgroep (querytekst) in de titel (meer precies, in de eerste zin van het document). Er wordt rekening gehouden met contextbeperkingen en stopwoorden precies zoals in TRp2, d.w.z. factor[8] minoren factor[5]
  The presence of the exact phrase (query text) in the title (more precisely, in the first sentence of the document). Context restrictions and stop words are taken into account exactly as in TRp2, i.e. factor[8] minors factor[5]

 9. Встретился участок, прошедший кворум, в котором все словопозиции обозначены как имеющие релевантность BEST_RELEV (заголовок или meta keywords)."
  Er was een segment dat het quorum heeft overschreden, waarin alle woordposities worden aangeduid als zijnde BEST_RELEV relevantie (titel of meta-trefwoorden).
  There was a segment that passed the quorum, in which all word positions are designated as having BEST_RELEV relevance (title or meta keywords).

 10. Removed
 11. Это новости (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 паттернам в url`е)) ).
  Dit is nieuws (bepaald door het kenmerk ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 patronen in de url)))).
  This is news (determined by the characteristic ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 patterns in the url)))).