تئوری بیزین (Naive Bayes)
Naive Bayes تئوری است که توسط توماس بیز در سال (۱۷۰۲-۱۷۶۱) پیشنهاد شد. بیز یک الگوریتم یادگیری ماشین است که ما برای حل مشکلات طبقه بندی استفاده می گردد، همچنین برای تعیین احتمال شرطی رویدادها نیز استفاده می شود. اساساً قضیه بیز، احتمال وقوع یک رویداد را بر اساس دانش قبلی از شرایطی که ممکن است مربوط به رویداد باشد، توصیف می کند.
یکی از پر استفاده ترین و کاربردی ترین دسته بندی کننده بیضی، نیو بیزین نام دارد. از آن در یادگیری ماشین به عنوان تکنیکی برای دسته بندی کردن آبجکت ها در دو و یا چندین دسته استفاده می گردد. نیوبیزین قابلیت معین نمودن احتمال (وقوع) یک دسته را با مشخص کردن عددی را که از مشاهدات به دست می آید دارا است. فرض این مدل مبتنی بر آن است که ویژگی های متغیرها شرایط مستقلی از دستهی معین گردیده دارند.
قضیه بیز روشی برای دستهبندی پدیدهها، بر پایه احتمال وقوع یا عدم وقوع یک پدیدهاست و در نظریه احتمالات با اهمیت و پرکاربرد است. اگر برای فضای نمونهای مفروضی بتوانیم چنان افرازی انتخاب کنیم که با دانستن اینکه کدامیک از پیشامدهای افراز شده رخ دادهاست، بخش مهمی از عدم قطعیت تقلیل می یابد.
دستهبندیکننده بیز ساده در یادگیری ماشین به گروهی از دستهبندیکنندههای ساده بر پایه احتمالات اطلاق میگردد که با متغیرهای تصادفی مستقل ساده مفروض میان حالتهای مختلف و براساس قضیه بیز کاربردی است. بهطور ساده روش بیز روشی برای دستهبندی پدیدهها، بر پایه احتمال وقوع یا عدم وقوع یک پدیدهاست.
براساس ویژگیهای ذاتی احتمال به ویژه اشتراک احتمال دستهبندیکننده بیز ساده (به انگلیسی : Naive Bayes classifier) با دریافت تمرین اولیه نتایج خوبی ارائه خواهد کرد. شیوه یادگیری در روش نایو بیز از نوع یادگیری با ناظر(به انگلیسی : Supervised learning) است.
قضیه نیو بیزین ( naive bayesian) روش محاسبه احتمال( posterior خلفی(، (P (c | x)، P (c)، P (x) و P (x | c را فراهم می کند. دسته بندی naive bayesian فرض می کند که اثر ارزش یک پیش بینی (x) بر یک کلاس داده (c) مستقل از مقادیر پیش بینی کننده های دیگر است. این فرض استقلال شرطی طبقه است.
فرمول:
P (y|x) = P(x|y) P(y) / P(x)
P(y|x) – احتمال وقوع رویداد y، با توجه به اینکه رخداد x به وقوع پیوسته است.
P(x|y) – احتمال وقوع رویداد x، با توجه به اینکه رویداد y به وقوع پیوسته است..
P(y) – احتمال رویداد y
P(x) – احتمال رویداد x
مزایا:
این الگوریتم به سرعت کار می کند و می تواند زمان زیادی را ذخیره کند.
بیز برای حل مسائل پیش بینی چند کلاسی مناسب است.
اگر فرض استقلال ویژگی ها درست باشد، می تواند عملکرد بهتری نسبت به مدل های دیگر داشته باشد و نیاز به داده های آموزشی بسیار کمتری دارد.
بیز برای متغیرهای ورودی دسته ای مناسب تر از متغیرهای عددی است.
معایب:
Naive Bayes بیز فرض می کند که تمام پیش بینی کننده ها (یا ویژگی ها) مستقل هستند، به ندرت در زندگی واقعی اتفاق می افتد. این امر قابلیت استفاده از این الگوریتم را در موارد استفاده در دنیای واقعی محدود می کند.
کار با الگوریتم در پایتون:
در ابتدا کتابخانه های لازم و داده های خود را وارد میکنیم.
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import make_blobs
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.metrics import roc_curve
2- data=datasets.load_breast_cancer()
در اینجا متغییر های خود را به x اختصاص می دهیم و هدف را به y:
3- x=data.data
y=data.target
در این قسمت از کد ما داده های خود را به داده های test و train تقسیم بندی میکنیم:
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=45)
در این فسمت ما یک طبقه بندی کننده بیز ایجاد می کنیم.
Gaussian=GaussianNB()
داده های طبقه بندی شده را برای به دست آوردن مقدار نمره دقت به ماشین آموزش می دهیم.
y_pred_new=Gaussian.fit(x_train,y_train).predict(x_test)
y_pred_new= 0.935672514619883
y_pred_new=Gaussian.predict_log_proba(x_test)[:,1]
برای مثال در معماری:
به منظور تعیین کاربری جدید در بازآفرینی فضاهای متروکه و رها شده، کاربریهای موجود در منطقه ثبت گردیده و میزان فعالیت اقتصادی پهنههای تجاری و اداری بررسی و سپس در پایگاه داده جمع آوری می گردد.
در اینجا برای هر کاربری با توجه به میزان وضعیت فعالیت اقتصادی فعلی سه حالت فعال، نیمه فعال و غیرفعال در نظر گرفته می شود و برای کاربری هایی با فراوانی بیش از n عدد به کمک الگوریتم نیو بیزین میزان فعالیت آنها در آینده در چه سطحی قرار خواهد گرفت پیش بینی تولید می گردد و براساس پیش بینی الگوریتم نیو بیزین کاربری های که می توانند در فرایند باز آفرینی فضای مورد نظر اثر بیشتری داشته باشند و پایدارتر عمل نمایند به عنوان کاربری انتخاب می گردند.