Кратък обзор на срещата "как търсенето Yandex като нечетлив"

заобикаляйки Интернет

Yandex знае няколко трилиона URL адреси, избягва няколко милиарда документи на ден. Но всички URL адреси няма да мине всякога, тъй като интернет е безкраен.

индекс Сграда

Според ashmanovskoy динамика търсене. Google Yandex напред почти два пъти по индекса за търсене на пълнота. Този пропуск е станало възможно благодарение на подобрения - закупуване на нови машини и оптимизация на процесите.

Конструкцията на схема на базата на търсене

Роботът прекосяват Интернет и индекса на документите. ги поставя в записаното копие, а след това да се покаже на въпроса, например. Кеширана - отделна хеш-таблица между центрове за данни.
В процеса на индексиране робот извлича думи от документа и подрежда от лема, вижте връзките към други страници и отива по-далеч.
Помощта за индексиране се използват също регистрира Yandex. Ако документът е показана на проблема или да го има едно кликване на въпроса - трябва да го оставите в индекса. Логично е, като позоваванията на такъв документ следва да доведе до по-добър документ.

Публикуването на индекса в Търсене

Основният проблем - всички данни се обработват в собствената си карта-намали YTable, съкратено като Yt. Общ обем от 50 петабайта.
Пълното описание - Хабре.

проблеми mapredyusa

MAP използва redyus операция batchevye. С цел да се определят приоритетните документи за заобикаляне, Yandex взима всичко референтния брой, се свързва с цялото поведение на потребителя и всички форми за изтегляне.

Процесът се превръща бавно, за да се изгради един индекс - също.
Batchevye етап за цялата база - е изложена или делта, или всички.

В такива обеми от данни е важно да се ускори процеса на доставка на индекса. За да направите това, има бързи схеми. Например Yandex Новини - Download новини в реално време и да публикува на потребителя.

Схема търсещия

Мета - разпитва индекси, които са разделени на части, на всеки заявка за търсене отива.

Всеки център за данни се поддържа между 2-4 копия на индекса.

Сега всичко, което се съхранява в RAM директно - за дълго време.
Ускоряване can- преведете на SSc.

Как клъстера за търсене

Милиони копия на различни програми;

Хиляди видове програми, всички комуникират чрез TCP / IP;

Всички консумират различни ресурси;
Всички програми на живо на сървърите;

Всички вози чрез торент.

Ръцете повече от Пират Бей.

Това подобряване на дизайна

Yandex инвестирани в развитието на ядрото на Линукс.
Предварително планиране как да се разпределят на програмата на сървъра.
Искате ли да се съчетаят търсене и роботизирани клъстери - трябва да се управлява отделно от картата намаляване на програми за търсене. MR яде дискове и мрежов софтуер консумират на процесора.

Но вие можете да се балансира на процесора.

Matriksnet

Формулата е проста :) - съдържа двоични знаци на документа и изчисляването-уместно в цикъла. За да отговорим на потребителя заема 200 000 повторения.

машинно обучение

Индекси за формула избрани пълен списък;

GPU работи по-добре на процесора. но пробата не е поставен в паметта за учене;

Машинното обучение искате да използвате не само в дървото на подбор. но също така и в невронни мрежи.

индекс компресия

Готов за компресиране последователност ui32;

В Yandex използва патентован алгоритъм за компресиране и спестява 10-15% от RAM.

Въпроси и отговори

класиране Проблеми формула за растеж

По-рано се класира в основната търсенето, като всеки даде 100 резултата.

Сега топ 100 Резултатите са комбинирани средно и подредени отново тежки формула. Ресурси взема 1000 пъти по-малко.

Първо класиране формула е размер от 10 байта 100 знака.

Сега един формула значение - 100 MB.
Unreal zareversinzhinirit :)

Олег Фьодоров. предизвикателства търсене облачни

Резюме не, това е най-вече усилено върху желязото.

Александър Сафронов. Как да намерите най-добрите отговори

Цел: Да се ​​опише как да се подобри качеството на търсене Yandex и какви проблеми решават.

Всички жлези и инфраструктурата трябва да търсите → → класиране подобряване качеството на търсенето → → печалба потребителското щастие.

Как да се измери

Има две групи от измерванията:

1. Оценка на asessorskoy маркиране

Машинно обучение на десетки хора: искане → → Най-популярни - метрични агрегация →

2. Он-лайн експерименти върху потребителите, AB тестове.

Изключения за подобряване на качеството на търсене

След като Yandex пусна нова онлайн класация, потребителите като него - всички желани опции са се увеличили, с изключение на един. Нови класиране пропиляха нов блок в контекста на по-ниската блок.
Yandex е запазил новите класацията и кликове и дари пари. Mi-ми-ми :)

Какво да подобрим?

Фактор - стойност, която представя искане на документи, молби или съобщения документ.

1500 фактори сега са в търсене в мрежата - трябва да се помисли много различни параметри, за да се разграничи доброто от злото в искането.

видове фактори

текст - покритие, близостта на думи, в близост до върха;

Query-- на броя на думите;

Документ - обслужване;

Има инструменти за оценка на ползите от всеки фактор.

резултат фактор тест

Фактори, да създават, да оцени и приложи, ако тя е положителна

машинно обучение

Отделно фактори са слаби, така че те се събират в една обща формула, която ще даде един номер по който документите и ще се класира в търсенето.

Matriksnet

Matriksnet - набор от алгоритми за машинно обучение с GBRT - множество дървета на решения, избрани така, че сумиране на стойностите в листата, може да получи добра възможност за предвиждане на оценката на значение, което се поставя заседател.

Възлите на дървото - разделителните условията, които се тестват за броя на такъв фактор №50> 0,5.

невронни мрежи

Използва се, в това число в търсенето.

Наскоро въведохме въз основа на фактор DSSM алгоритъм - заявката и документите, като вектори с плаваща запетая, които са добре косинус умножение прогнозира asessorskuyu оценка.

езикознание

Най-приложни проблеми се решават с помощта на лингвистиката - исканията за удължаване на срока.

Разширяване на заявки

Търсачката трябва да разберат, поставя, раждане и т.н. Всичко това може, но сега има разговори за изграждане на нивото на морфологията на непознат език.

Съкращения, транслитерация, и т.н. Около търсенето трябва да се преподава.

свързаната с разширение

В примера Yandex печалби, свързани облак от други думи и изрази, както и други въпроси, които с малко тегло, свързано с първоначалното искане.

Ако документът се повлиява добре от заявката на потребителя - има вероятност да съдържат думи, не само въпрос, но също така свързани,

Дори и думи за търсене в текста на страницата, не е налице, тогава асоциациите да разберат, че страницата по темата.

Как да стигнем

готови речници, но не достатъчно, за да ги за Yandex:

+ машинно обучение, за да се оцени.

Интересни настоящи и бъдещи задачи за търсене

Добавете още полезни сигнали чрез фактори;

Машинно обучение за подобряване и оптимизиране работата на формулите;