Чи настав час голосовим технологіям вбити сенсорні екрани?



<div _ngcontent-c17 = "" innerhtml = "

Люди та предмети давно мали любов. Прості інструменти, а також складне програмне забезпечення – це все розширення наших фізичних тіл. Ми можемо простежити людський прогрес і добробут до рівня витонченості створених нами інструментів, і, зробивши це, вдосконалення наших здібностей подорожувати, будувати, спілкуватися та творити. Оскільки інструменти настільки важливі для нашого існування та процвітання, те, як ми взаємодіємо з цими інструментами, також має велике значення.

Настільки важливим є інтерфейс між людьми та машинами, якими ми працюємо, що коли з’являється новий засіб, який може переосмислити цей інтерфейс, це справжня революція, яка не буває щодня.

& nbsp; Читаючи це, ви, швидше за все, тримаєте в руці пристрій із сенсорним екраном чи мишкою. Ці два інструменти, які підкорили світ інтерфейс людина-машина, фактично взаємодіють люди у всьому світі з машинами. Можливо, ви помічник генерального директора компанії «Фортун 500». Можливо, ви хакер в Україні або інженер, який працює над нафтовою установкою. & Nbsp; Як би там не було, ми використовуємо один і той же інтерфейс для роботи сьогоднішніх машин, тобто мобільних, настільних або промислових комп'ютерів.

На початку 80-х моє додаток для обробки текстів під назвою "WordStar". Дві третини екрану містили нагадування про клавіші: CTRL + U – підкреслення, CTRL + T, одна вкладка, F1 – новий абзац тощо. На відміну від найкращих сьогоднішніх геймерів, які вирішили використовувати комбінації клавіш, тоді клавіатура була єдиним варіантом – і це було нудно. Тож недарма світ підскочив від радості, коли з’явилися екрани комп'ютерної миші та вікна.

Ми схопили цю мишку і ніколи не відпускали.

& nbsp; Наскільки миша панувала вищою у світі ПК та ноутбуків, це нічого не сприяло ефективному маніпулюванню мобільними пристроями. Так, були ранні спроби з клавіатурою та джойстиком пристроїв Blackberry, але як тільки містер Джобс показав світові красу та легкість сенсорних екранів, він також представив єдину іншу причину, яку ми відпустимо від миші, а це схопити наш мобільний телефон.

Зараз у місті з’явилася нова зброя, і її звуть голос. Подейкують, що вона хоче зняти мишу та сенсорний екран одним знімком. Але чи можливо це? Чи можуть голосові інтерфейси витісняти нашу улюблену мишу та сенсорний екран?

Давайте приділимо цій загрозі увагу, яку вона заслуговує.

& nbsp; Існує поширена помилка щодо голосових технологій, коли люди часто плутають можливість транскрибувати чи розуміти розмовне слово з іншими цифровими можливостями, такими як "пошук" або аналітика, які характерні для вхідних інтерфейсів, таких як введення чи сканування документів. Частина цього – голос – розуміння того, що говорить користувач. Решта – це керування цифровими інструментами та послугами, спільними для Voice, але також і багатьма іншими операціями.

Ось приклад: стоячи на кухні миючи посуд, ви пам’ятаєте, що вам потрібно перевірити погоду на майбутню поїздку. Руки у вас мокрі, і ви не хочете хапати мобільний телефон, бо хто знає, чи він такий водонепроникний, як рекламується. Отже, ви голосно говорите: "Алекса, яка погода в Нью-Йорку завтра?" У відповідь Алекса говорить вам прогноз погоди.

& nbsp; Що щойно сталося з технічної точки зору?

По-перше, ви активували пристрій через його магічне "слово прокидання". Конкретне слово для цього пристрою – "Alexa", але для кожного з наших пристроїв потрібне інше слово, залежно від того, ким вони виготовлені. Далі природну обробку мови кинули в передачу і перетворили ваше розмовне слово в цифрові біти та байти, які потім були надіслані в хмару. Нарешті, використовуючи алгоритми машинного навчання, які вже пройшли навчання вашою мовою, машини в хмарі мають сенс того, що ви сказали. На цьому «голосова техніка» закінчується. Тепер давайте скористаємося більш звичайними інструментами. Amazon або Google або Apple потребують пошуку відповіді на ваше запитання, можливо, за допомогою API для цифрової погодної служби. Як тільки правильні служби знайдуть рішення, голосова технологія знову повертається, щоб створити відповідь, активувати свій пристрій Alexa, і бам, ви знаєте погоду.

Як і технологія сенсорного екрану, голос є механізмом введення. Якщо ви використовуєте сенсорний екран, щоб підняти найкращий маршрут додому з ресторану, сам сенсорний екран не відображає маршрут. Натискаючи піктограму на сенсорному екрані, ви активуєте додаток, який дозволяє послугу, яка знаходить курс. Таким же чином ми не можемо сказати, що голос відповідає за те, щоб дізнатися, якою буде погода завтра.

Щоб голос перебрався з сенсорних екранів або вбив улюблену мишу, спочатку необхідно очистити кілька перешкод.

Слова пробудження – це дратівлива необхідність

Візьмемо, наприклад, справу про "пробудження слів". Вдома, коли ваш подружжя хоче привернути вашу увагу, вони можуть зателефонувати вам, використовуючи різні слова залежно від ситуації. Якщо він або вона звертається до вас з прізвиськом або терміном прихильності, наприклад, дорога або мила, це може означати щось зовсім інше, ніж якби вони зверталися до вас по імені. З голосовими інтерфейсами потрібно отримати & nbsp; уваги пристрою, на якому ви знаходитесь, прокинувшись, і жодна кількість контексту не може допомогти вам це зробити. Іншими словами, якщо ви не знаєте конкретного слова пробудження для певного пристрою, воно не відповість на все, що ви сказали. Ніяка кількість «любийців» чи «медоносів» не потрапить до вас. & Nbsp;

Що може зробити цей пристрій?

Ми з'ясували погоду, але чи не підтримує цей пристрій цю функціональність? Можливо, він може лише відтворювати музику, або вимикати світло. За допомогою графічних інтерфейсів користувача ми можемо переглядати вибір функцій, які пропонує пристрій, але голосові пристрої менше передвіщають. Просто не знаючи, на що вони здатні.

Деякі розмови важче зрозуміти

Поговоримо про запитання, яке ми задали: "Яка завтра буде погода в Нью-Йорку?" Це досить поширене питання. Жодних абревіатур або потенційно заплутаного лінгво не використовували. Існує безліч цифрових джерел, які можна використовувати для навчання машин для розуміння цього речення.

Час набирати складність на кілька разів вище. Подумайте, як учений вимовляє складну формулу з безліччю жаргонів, що працюють у ніші, коли він працює у своїй лабораторії. Це не є загальною мовою, і для того, щоб навчити машину її розуміти, вона потребує доступу до цифрових засобів масової інформації, таких як наукові статті чи наукові статті. Складно, але не неможливо, оскільки там існує безліч наукового цифрового контенту. Тепер розглянемо тип розмови, яку матиме бригада, яка працює поруч із буровою машиною на відкритій шахті. На сьогодні працівники відкритих шахт не пишуть багато наукових робіт, тому дані, необхідні для того, щоб навчити машину розуміти цей конкретний галузь галузі, набагато складніше.

Занадто шумно, чи можете ви повторити?

У середовищах, де немає фонового шуму, як, наприклад, вдома або в лабораторії, доцільно очікувати, що пристрої з активованим голосом зможуть почути те, що ви говорите. Але як щодо справи з шахтниками? Або люди в кав’ярні, або в машині з кількома людьми, що розмовляють одночасно? У цих випадках голосовій технології буде набагато важче почути те, що говорять. & Nbsp;

Це все зводиться до того, що голосова технологія чудово підходить для деяких випадків використання. Для нас, як інноваторів, вирішальне питання, на яке найкраще працювати, – це вирішальне питання.

Що слід враховувати при інноваціях із голосом

Якщо ви думаєте про використання голосу як інтерфейсу для наступного додатка, врахуйте поточні обмеження технології: розбудити слова, включити користувачів на доступну функціональність, можливість орієнтуватися між функціями, наскільки поширеною або галузевою мовою використовується та екологічні умови. Це не означає, що голосові технології не мають великого використання; це означає, що миша та сенсорні екрани безпечні в осяжному майбутньому.

">

Люди та предмети давно мали любов. Прості інструменти, а також складне програмне забезпечення – це все розширення наших фізичних тіл. Ми можемо простежити людський прогрес і добробут до рівня витонченості створених нами інструментів, і, зробивши це, вдосконалення наших здібностей подорожувати, будувати, спілкуватися та творити. Оскільки інструменти настільки важливі для нашого існування та процвітання, те, як ми взаємодіємо з цими інструментами, також має велике значення.

Настільки важливим є інтерфейс між людьми та машинами, якими ми працюємо, що коли з’являється новий засіб, який може переосмислити цей інтерфейс, це справжня революція, яка не буває щодня.

Читаючи це, ви, швидше за все, тримаєте в руці пристрій із сенсорним екраном або мишкою. Ці два інструменти, які підкорили світ інтерфейс людина-машина, фактично взаємодіють люди у всьому світі з машинами. Можливо, ви помічник генерального директора компанії «Фортун 500». Можливо, ви хакер в Україні або інженер, який працює над нафтовою установкою. Як би там не було, ми використовуємо один і той же інтерфейс для роботи сьогоднішніх машин, тобто мобільних, настільних або промислових комп'ютерів.

На початку 80-х моє додаток для обробки текстів під назвою "WordStar". Дві третини екрану містили нагадування про клавіші: CTRL + U – підкреслення, CTRL + T, одна вкладка, F1 – новий абзац тощо. На відміну від найкращих сьогоднішніх геймерів, які вирішили використовувати комбінації клавіш, тоді клавіатура була єдиним варіантом – і це було нудно. Тож недарма світ підскочив від радості, коли з’явилися екрани комп'ютерної миші та вікна.

Ми схопили цю мишку і ніколи не відпускали.

Наскільки миша панувала вищою у світі ПК та ноутбуків, це нічого не сприяло ефективному маніпулюванню мобільними пристроями. Так, були ранні спроби з клавіатурою та джойстиком пристроїв Blackberry, але як тільки містер Джобс показав світові красу та легкість сенсорних екранів, він також представив єдину іншу причину, яку ми відпустимо від миші, а це схопити наш мобільний телефон.

Зараз у місті з’явилася нова зброя, і її звуть голос. Подейкують, що вона хоче зняти мишу та сенсорний екран одним знімком. Але чи можливо це? Чи можуть голосові інтерфейси витісняти нашу улюблену мишу та сенсорний екран?

Давайте приділимо цій загрозі увагу, яку вона заслуговує.

Існує поширена помилка щодо голосових технологій, коли люди часто плутають можливість транскрибувати або розуміти розмовне слово з іншими цифровими можливостями, такими як "пошук" або аналітика, які характерні для вхідних інтерфейсів, таких як введення чи сканування документів. Частина цього – голос – розуміння того, що говорить користувач. Решта – це керування цифровими інструментами та послугами, спільними для Voice, але також і багатьма іншими операціями.

Ось приклад: стоячи на кухні миючи посуд, ви пам’ятаєте, що вам потрібно перевірити погоду на майбутню поїздку. Руки у вас мокрі, і ви не хочете хапати мобільний телефон, бо хто знає, чи він такий водонепроникний, як рекламується. Отже, ви голосно говорите: "Алекса, яка погода в Нью-Йорку завтра?" У відповідь Алекса говорить вам прогноз погоди.

Що щойно сталося з технічної точки зору?

По-перше, ви активували пристрій через його магічне "слово прокидання". Конкретне слово для цього пристрою – "Alexa", але для кожного з наших пристроїв потрібне інше слово, залежно від того, ким вони виготовлені. Далі природну обробку мови кинули в передачу і перетворили ваше розмовне слово в цифрові біти та байти, які потім були надіслані в хмару. Нарешті, використовуючи алгоритми машинного навчання, які вже пройшли навчання вашою мовою, машини в хмарі мають сенс того, що ви сказали. На цьому «голосова техніка» закінчується. Тепер давайте скористаємося більш звичайними інструментами. Amazon або Google або Apple потребують пошуку відповіді на ваше запитання, можливо, за допомогою API для цифрової погодної служби. Як тільки правильні служби знайдуть рішення, голосова технологія знову повертається, щоб створити відповідь, активувати свій пристрій Alexa, і бам, ви знаєте погоду.

Як і технологія сенсорного екрану, голос є механізмом введення. Якщо ви використовуєте сенсорний екран, щоб підняти найкращий маршрут додому з ресторану, сам сенсорний екран не відображає маршрут. Натискаючи піктограму на сенсорному екрані, ви активуєте додаток, який дозволяє послугу, яка знаходить курс. Таким же чином ми не можемо сказати, що голос відповідає за те, щоб дізнатися, якою буде погода завтра.

Щоб голос перебрався з сенсорних екранів або вбив улюблену мишу, спочатку необхідно очистити кілька перешкод.

Слова пробудження – це дратівлива необхідність

Візьмемо, наприклад, справу про "пробудження слів". Вдома, коли ваш подружжя хоче привернути вашу увагу, вони можуть зателефонувати вам, використовуючи різні слова залежно від ситуації. Якщо він або вона звертається до вас з прізвиськом або терміном прихильності, наприклад, дорога або мила, це може означати щось зовсім інше, ніж якби вони зверталися до вас по імені. За допомогою голосових інтерфейсів вам потрібно привернути увагу пристрою, на якому ви знаходитесь, прокинувшись, і жодна кількість контексту не може допомогти вам це зробити. Іншими словами, якщо ви не знаєте конкретного слова пробудження для певного пристрою, воно не відповість на все, що ви сказали. Ніяка кількість «коханих» або «медоносів» не потрапить до вас.

Що може зробити цей пристрій?

Ми з'ясували погоду, але чи не підтримує цей пристрій цю функціональність? Можливо, він може лише відтворювати музику, або вимикати світло. За допомогою графічних інтерфейсів користувача ми можемо переглядати вибір функцій, які пропонує пристрій, але голосові пристрої менше передвіщають. Просто не знаючи, на що вони здатні.

Деякі розмови важче зрозуміти

Поговоримо про запитання, яке ми задали: "Яка завтра буде погода в Нью-Йорку?" Це досить поширене питання. Жодних абревіатур або потенційно заплутаного лінґо не використовували. Існує безліч цифрових джерел, які можна використовувати для навчання машин для розуміння цього речення.

Час набирати складність на кілька разів вище. Подумайте, як учений вимовляє складну формулу з безліччю жаргонів, що працюють у ніші, коли він працює у своїй лабораторії. Це не є загальною мовою, і для того, щоб навчити машину її розуміти, вона потребує доступу до цифрових засобів масової інформації, таких як наукові статті чи наукові статті. Складно, але не неможливо, оскільки там існує безліч наукового цифрового контенту. Тепер розглянемо тип розмови, яку матиме бригада, яка працює поруч із буровою машиною на відкритій шахті. На сьогодні працівники відкритих шахт не пишуть багато наукових робіт, тому дані, необхідні для того, щоб навчити машину розуміти цей конкретний галузь галузі, набагато складніше.

Занадто шумно, чи можете ви повторити?

У середовищах, де немає фонового шуму, як, наприклад, вдома або в лабораторії, доцільно очікувати, що пристрої з активованим голосом зможуть почути те, що ви говорите. Але як щодо справи з шахтниками? Або люди в кав’ярні, або в машині з кількома людьми, що розмовляють одночасно? У цих випадках голосовій технології буде набагато важче почути те, що говорять.

Це все зводиться до того, що голосова технологія чудово підходить для деяких випадків використання. Для нас, як інноваторів, вирішальне питання, на яке найкраще працювати, – це вирішальне питання.

Що слід враховувати при інноваціях із голосом

Якщо ви думаєте про використання голосу як інтерфейсу для наступного додатка, врахуйте поточні обмеження технології: розбудити слова, включити користувачів на доступну функціональність, можливість орієнтуватися між функціями, наскільки поширеною або галузевою мовою використовується та екологічні умови. Це не означає, що голосові технології не мають великого використання; це означає, що миша та сенсорні екрани безпечні в осяжному майбутньому.