Машинне навчання і аналіз даних: програма навчання, відгуки
Опубликованно 22.12.2018 20:20
Термін "машинне навчання та аналіз даних" був придуманий в 1959 році Артуром Самуелем. Машинне навчання досліджує вивчення та побудова алгоритмів, які дають можливість вчитися і робити прогнози за даними - такі алгоритми перевершують строго задані статичні програмні команди, видаючи передбачення або рішення. Машинне навчання використовується в ряді обчислювальних задач, де проектування і програмування явних алгоритмів з хорошою продуктивністю є важким або нездійсненним. Приклади додатків включають фільтрацію електронної пошти, виявлення мережевих зловмисників і комп\'ютерне зір.
Суть така
Машинне навчання тісно пов\'язане (і часто збігається) з обчислювальної статистикою, яка також фокусується на прогнозуванні з використанням комп\'ютерів. Воно має міцні зв\'язки з математичної оптимізацією, яка надає методи, теорії і області додатків в цій науковій сфері. Машинне навчання іноді поєднується з інтелектуальним аналізом даних, де останнім підполі більше фокусується на аналітичному аналізі даних і відомо як неконтрольоване навчання.
Машинне навчання та аналіз даних - це метод, використовуваний для розробки складних моделей і алгоритмів, які піддаються прогнозуванню. У комерційному використанні це називається прогностичної аналітикою. Ці аналітичні моделі дозволяють дослідникам, науковцям, інженерам і аналітикам створювати надійні, повторювані рішення та результати та розкривати приховані ідеї допомогою вивчення історичних відносин і тенденцій даних. Приклад алгоритмів
Тому М. Мітчелл представив широко цитированное, більш формальне визначення алгоритмів, мов в області машинного навчання: «Кажуть, що комп\'ютерна програма вчиться на досвіді E по відношенню до деякого класу задач T і показником продуктивності P, якщо його продуктивність при виконанні завдань T, виміряне P, поліпшується з досвідом E ». Букви - формальні означення алгоритмів. Це визначення завдань, які розглядає машинне навчання і аналіз даних.
Історія
Виникнення цієї диво-науки послідувало після пропозиції Алана Тюрінга у його статті «Обчислювальна техніка та розвідка», в якій питання «чи Можуть машини думати?» замінюється питанням: «чи Можуть машини робити те, що ми (як мислячі сутності) можемо робити?». У реченні Тюрінга розкриваються різні характеристики, якими може володіти мисляча машина, і різні наслідки її побудови.
Артур Самуель, американський піонер в області комп\'ютерних ігор і штучного інтелекту, в 1959 році придумав термін «машинне навчання» (machine learning). Як наукова дисципліна, машинне навчання зросло прагнення до штучного інтелекту. Вже в перші дні ІІ як академічної дисципліни деякі дослідники були зацікавлені в тому, щоб машини вчилися на вже наявних даних. Вони намагалися підійти до проблеми з допомогою різних символічних методів, а також того, що тоді називалося «нейронними мережами». Це були головним чином персептрони і інші моделі, які пізніше були визнані заново в узагальнених лінійних моделях статистики. Були також використані імовірнісні міркування і побудови моделей майбутніх подій за рахунок ймовірності їх пригоди, особливо в автоматизованій медичній діагностиці.
Проблема штучного інтелекту
Проте все більшу увагу в логічному, заснованому на знаннях підході викликав розрив між ІІ і машинним навчанням (machine learning). Імовірнісні системи страждають від теоретичних і практичних проблем збору і представлення даних. До 1980 року експертні системи стали домінувати над ШІ, і статистика була не на користь штучного інтелекту, який був і залишається дуже недосконалим. Робота над символічним / заснованим на знаннях навчанням тривала в рамках ІІ, що призводило до індуктивного логічного програмування, але більш статистична лінія досліджень в даний час виходить за рамки власне ІЇ у розпізнаванні образів і пошуку інформації. Дослідження нейронних мереж були кинуті ІІ та інформатикою приблизно в той же час. Ця лінія також тривала за межами поля AI / CS як зв\'язок між дослідниками з різних дисциплін, включаючи Хопфілда, Румельхарта і Хінтона. Їх основний успіх був досягнутий в середині 1980-х років з переосмисленням зворотного поширення.
Спеціалізація "Машинне навчання та аналіз даних", реорганізована як окрема дисципліна, почала процвітати в 1990-х роках. На даний момент мета цієї дисципліни - домогтися створення штучного інтелекту для вирішення розв\'язаних проблем практичного характеру. Вона змістила фокус від символічних підходів, які були успадковані від перших експериментів з ІІ, до методів і моделей, запозиченим зі статистики та теорії ймовірностей. Інтелектуальний аналіз
Судячи з відгуків, на курсах машинного навчання та аналізу даних часто використовують вже готові дані, з допомогою яких можна розвивати комп\'ютери і механізми, роблячи їх віддаленим подобою штучного інтелекту. Інтелектуальний аналіз даних в свою чергу фокусується на виявлення раніше невідомих властивостей даних (це етап аналізу відкриття знань у базах даних). Для інтелектуального аналізу даних використовуються багато методів машинного навчання, але з різними цілями. З іншого боку, машинне навчання також використовує методи інтелектуального аналізу даних як «неконтрольоване навчання» або як крок попередньої обробки для підвищення точності навчання.
Велика частина плутанини між цими двома дослідницькими співтовариствами (які часто мають окремі конференції й окремі журнали, ECML, PKDD, що є основним винятком) виходить з основних припущень, з якими вони працюють: в комп\'ютерному навчанні ефективність зазвичай оцінюється щодо здатності відтворювати відомі знання, а при відкритті знань та інтелектуальному аналізі даних (KDD) ключовим завданням є виявлення раніше невідомих знань. Оцінений щодо відомих знань, необізнаний (неконтрольований) метод буде легко перевершувати інші контрольовані методи, у той час як у типовій задачі KDD контрольовані методи не можуть використовуватися з-за недоступності даних навчання.
Оптимізація
У машинного навчання також є тісний зв\'язок з оптимізацією: багато проблем навчання сформульовані як мінімізація втрат під час самого процесу навчання. Функції втрат виражають невідповідність між передбаченнями навчальної моделі і фактичними результатами. Машинне навчання і аналіз даних: МФТІ
Основна мета учня полягає в тому, щоб узагальнити свій досвід. Це стосується і навчання в МФТІ, в якому доступний курс машинного навчання. Там проводиться навчання студентів з допомогою навчальних комп\'ютерів точно виконувати нові, небачені досі приклади / завдання після того, як вони проаналізують стартовий набір даних. Приклади, які вирішуються в ході навчання, взяті з деякого загальновідомого розподілу ймовірностей, і учень повинен побудувати загальну модель про це просторі, яка дозволяє йому робити досить точні прогнози в нових випадках.
Аналіз алгоритмів
Обчислювальний аналіз алгоритмів машинного навчання та їх ефективності - це галузь теоретичної інформатики, відома як теорія обчислювального навчання. Оскільки набори навчання є кінцевими, а майбутнє невизначеним, теорія навчання зазвичай не дає гарантій виконання алгоритмів. Замість цього ймовірні оцінки продуктивності досить поширені. Декомпозиція зміщення-дисперсії є одним із способів кількісної оцінки помилки узагальнення. Складність даних
Для досягнення максимальної продуктивності в контексті узагальнення складність гіпотези повинна відповідати складності функцій, що лежить в основі даних. Якщо гіпотеза менш складна, ніж функція, то модель не відповідає даним. Якщо складність моделі збільшується у відповідь, тоді помилка навчання зменшується. Але якщо гіпотеза занадто складна, то модель схильна переопределению, а узагальнення буде гірше. І цей висновок ми робимо, виходячи з багатьох журналів машинного навчання та аналізу даних, що зберігаються після серйозних наукових робіт і досліджень у цій сфері.
На додаток до обмежень продуктивності теоретики обчислювального навчання вивчають тимчасову складність і здійсненність навчання. В теорії обчислювального навчання обчислення вважається здійсненною, якщо його можна провести в полиномиальное час. Є два види результатів тимчасової складності. Позитивні результати показують, що певний клас функцій може бути вивчений за полиномиальное час. Негативні результати показують, що деякі класи не можуть бути вивчені за полиномиальное час. Тому для тих, хто не знає, з чого почати машинне навчання і аналіз даних, існують спеціальні завдання на аналіз даних, доступні на курсах у багатьох університетах. Автор: Ольгерд Семенов 15 Жовтня, 2018
Категория: Новости