Як Google BERT Vs. Алгоритми Сміта працюють разом - огляд семальта




Нещодавно Google випускає наукову роботу щодо їх нового алгоритму NLP SMITH. Ця стаття висвітлювала багатьох спеціалістів із SEO щодо змін, які вимагають збільшення чи зниження рейтингу SERP. Тим не менше, тут нас турбує те, як цей новий алгоритм SMITH порівнюється з BERT?

У статті, опублікованій Google, вони стверджували, що SMITH перевершує BERT у розумінні довгих пошукових запитів та довгих документів. Що робить SMITH настільки цікавим, це те, що він може розуміти фрагменти документа, подібні до того, що BERT робить зі словами та реченнями. Ця вдосконалена функція SMITH дозволяє легко розуміти довші документи.

Але перед тим, як продовжувати далі, ми повинні повідомити вам, що на даний момент SMITH не працює в алгоритмах Google. Але якщо наші припущення правильні, це буде запущено разом із індексацією проходу, або воно буде передувати цьому. Якщо ви справді зацікавлені в тому, щоб дізнатись, як класифікуватися на SEP, машинне навчання неминуче буде йти поруч із цим інтересом.

Тож повернімось до теми: чи планується замінити BERT? Чи не буде більшість документів в Інтернеті величезних, надійних і, отже, довших результатів роботи із SMITH?

Давайте перейдемо до подальшого і подивимось, що ми зробили. SMITH може виконувати як роботу з читанням надійних і тонких документів. Подумайте про це як про базуку. Це може завдати великої шкоди, оскільки може також відкрити двері.

Для початку, чому БЕРТ чи СМІТ?

Справжнє питання тут полягає в тому, чому для пошуку результатів пошукова система вимагає обробки природного навчання. Відповідь проста. Пошукові системи вимагають NLP для переходу від рядків або ключових слів, що розуміють пошукову систему, до речей або веб-сторінок.

Там, де Google не має уявлення, що ще може бути на сторінці, крім ключових слів, чи чи індексується вміст взагалі має сенс стосовно пошукового запиту. Завдяки NLP Google може зрозуміти контекст символів, введених у його пошуковий запит.
Завдяки NLP Google може розрізнити наміри користувача, коли він каже "берег річки" та "банківський рахунок". Він також може сприймати такі висловлювання, як "Керолайн зустрічалася зі своїми друзями за випивкою, напоями, пивкою, елем, пивом" як неприродне.

Як експерти в галузі SEO, ми повинні сказати, що розуміння пошукових запитів пройшло довгий шлях. Кращі вважають, що раніше було надто важко знайти потрібні статті в Інтернеті.

Розуміння BERT

В даний час BERT функціонує як найкраща модель NLP для багатьох, якщо не для більшості програм, особливо коли мова йде про розуміння складних мовних структур. Багато хто вважає перший бідиректіанальний символ найбільшим стрибком уперед у цьому алгоритмі. Замість того, щоб мати алгоритм, який читає зліва направо, BERT може також розуміти слова стосовно їх контексту. Таким чином, це не дасть результатів для окремих слів, введених у запит, а індексує веб-сторінки на основі загального значення слів у пошуковому запиті.

Ось приклад для полегшення вашого розуміння:

В АВТОМОБІЛІ СВІТЛО.

Якби ви тлумачили це твердження зліва направо, досягнувши слова "світло", ви класифікували б вантажівку як щось із світлом. Це тому, що вантажівка прийшла перед світлом у заяві.

Але якщо ми хочемо класифікувати речі на вантажівках, ми можемо пропустити "світло", тому що ми не стикаємось з цим перед "вантажівкою".

Важко розглянути твердження в одному напрямку.

Крім того, BERT також має ще одну секретну перевагу - бути такою чудовою, і вона дозволяє ефективно обробляти мову з меншими витратами ресурсів порівняно з попередніми моделями. Це справді важливий фактор, який слід враховувати, коли хочеться застосувати його до всієї мережі.

Застосування лексем - ще одна еволюція, яка супроводжувала BERT. У BERT є 30000 лексем, і кожен із них представляє загальне слово з кількома додатковими лексемами для символів та фрагментів на випадок, якщо слово існує за межами 30000.

Завдяки своїй здатності обробляти лексеми та трансформери, BERT зрозумів зміст, що також дало йому можливість адекватно розуміти речення.

Отже, якщо сказати, "панночка пішла до берега. Пізніше вона сіла на берег і спостерігала, як тече річка".

BERT присвоює цим реченням різні значення, оскільки вони стосуються двох різних речей.

Розуміння СМІТА

Потім з’являється SMITH - алгоритм з кращими ресурсами та цифрами для обробки великих документів. BERT використовує близько 256 токенів на документ, і коли він перевищує цей поріг, обчислювальні витрати стають занадто високими для оптимальної роботи. На відміну від них, SMITH може обробляти до 2248 токенів на документ. Це приблизно в 8 разів більше, ніж використовується маркер BERT.

Щоб зрозуміти, чому обчислювальні витрати зростають в одній моделі НЛП, спочатку слід розглянути, що потрібно для розуміння речення та абзацу. Маючи справу з реченням, існує лише одне загальне поняття, яке слід зрозуміти. Менше слів, що відносяться один до одного, отже, менше зв’язків між словами та ідеями, які вони зберігають у пам’яті.

Складаючи речення в абзаци, зв’язок між цими словами значно примножується. Для обробки тексту у 8 разів тексту потрібно буде набагато більше разів за швидкістю та можливістю оптимізації пам'яті за допомогою тієї ж моделі. Тут SMITH робить все різне, в основному здійснюючи пакетні роботи та виконуючи багато роботи в режимі офлайн. Цікаво, що SMITH все ще залежить від BERT для нормальної роботи.

Ось опис того, як SMITH бере основний документ:
  1. Спочатку документ розбивається на групування розмірів, якими простіше керувати.
  2. Потім він обробляє кожен блок речень окремо.
  3. Потім трансформатор вивчає контекстне представлення кожного блоку, після чого перетворює їх у подання документа.

Як працює SMITH?

Щоб навчити модель SMITH, ми вчимось у BERT двома способами:

Для навчання BERT слово вилучається із речення та пропонуються альтернативні варіанти

BERT, який є краще підготовленим, є тим, який буде більш успішним у виборі правильного варіанту із запропонованих альтернатив. Наприклад, якщо BERT отримає речення:

Щасливий коричневий ------ перестрибнув через паркан.
  • Варіант перший - помідори.
  • Варіант другий - собака.
Чим краще підготовлений BERT, тим більше шансів вибрати правильний варіант, а саме варіант два.

Цей метод навчання також застосовується в SMITH.

SMITH готується до великих документів

Чим краще підготовлений SMITH, тим більше шансів розпізнати пропущені речення. Це та сама ідея з BERT, але інший додаток. Ця частина особливо цікава, оскільки вона малює світ із вмістом, сформованим Google, об’єднаним у стінки сторінок результатів пошукової системи. Звичайно, користувачі можуть піти, але ні, тому що Google може зібрати короткий і довгий вміст з усіх найкращих джерел на своїй сторінці результатів.

Якщо ви сумніваєтесь у цьому, ви повинні знати, що це вже почалося, і хоча вони ще цього не засвоїли, це початок.

SMITH краще, ніж BERT?

З усього прочитаного, цілком природно вважати, що SMITH кращий, а в багатьох завданнях він справді кращий. Але подумайте, як ви на мить користуєтесь Інтернетом; які питання ви регулярно вводите в пошукові запити?
  • "Який прогноз погоди на сьогодні?"
  • "Вказівки до ресторану".
Відповіді на такі пошукові запити зазвичай вимагають короткого змісту, часто з обмеженими та нескладними даними. SMITH більше бере участь у розумінні довших та складніших документів та довгих та складних пошукових запитів.

Це включатиме складання кількох документів та тем для створення відповідей. Він визначає спосіб розбиття вмісту, що дозволяє Google знати, що саме потрібно відображати. Це допоможе Google зрозуміти, як сторінки вмісту пов’язані між собою, і надає шкалу, за якою посилання можуть оцінюватися серед інших переваг.

Сказавши це, ми закінчуємо тим, що BERT і SMITH важливі, і вони обидва служать своїй унікальній меті.

Висновок

Незважаючи на те, що СМІТ - це базука, він нам потрібен, щоб скласти чітке уявлення про те, як все колективно. У ресурсах це коштує дорожче, оскільки робить більшу роботу, але коштує набагато менше, ніж BERT, виконуючи ту саму роботу.

BERT допомагає SMITH допомогти йому зрозуміти короткі запити та крихітні фрагменти вмісту. Це відбувається, поки Google не розробить ще один алгоритм NLP, який замінить обидва, і тоді ми будемо рухатись і наздоганяти черговий прогрес у SEO.

Вас цікавить SEO? Перегляньте інші наші статті на тему Блог Semalt.