Azure開放數(shù)據(jù)集是精選公共數(shù)據(jù)集,可用于將方案專屬特征添加到機(jī)器學(xué)習(xí)解決方案,以提高模型的準(zhǔn)確度。開放數(shù)據(jù)集位于云中的Microsoft Azure上并已集成到Azure機(jī)器學(xué)習(xí)中,隨時(shí)可供Azure Databricks和機(jī)器學(xué)習(xí)工作室(經(jīng)典版)使用。也可以通過(guò)API訪問(wèn)數(shù)據(jù)集,并在Power BI和Azure數(shù)據(jù)工廠等其他產(chǎn)品中使用它們。
數(shù)據(jù)集包括不受任何限制的天氣、人口普查、節(jié)假日、公共安全和位置數(shù)據(jù),有助于定型機(jī)器學(xué)習(xí)模型和擴(kuò)充預(yù)測(cè)解決方案。還可以共享Azure開放數(shù)據(jù)集中的公共數(shù)據(jù)集。
Azure開放數(shù)據(jù)集組件
準(zhǔn)備的精選數(shù)據(jù)集
Azure開放數(shù)據(jù)集中的精選開放公共數(shù)據(jù)集更適合用于機(jī)器學(xué)習(xí)工作流。
若要查看所有可用的數(shù)據(jù)集,請(qǐng)參閱Azure開放數(shù)據(jù)集目錄。
數(shù)據(jù)科學(xué)家通常將大部分時(shí)間花在清理和準(zhǔn)備數(shù)據(jù)上,以執(zhí)行高級(jí)分析。為了節(jié)省你的時(shí)間,開放數(shù)據(jù)集復(fù)制到Azure云中,并經(jīng)過(guò)預(yù)處理。系統(tǒng)將按固定的間隔從源提取數(shù)據(jù),例如,通過(guò)與美國(guó)海洋與大氣管理局(NOAA)建立FTP連接來(lái)提取數(shù)據(jù)。接下來(lái),將數(shù)據(jù)分析成結(jié)構(gòu)化格式,然后使用各種特征(例如最靠近的氣象站的郵政編碼或位置)相應(yīng)地?cái)U(kuò)充這些數(shù)據(jù)。
數(shù)據(jù)集通過(guò)Azure中的云計(jì)算共同托管,簡(jiǎn)化了訪問(wèn)和操作。
下面展示了可用數(shù)據(jù)集示例。
訪問(wèn)數(shù)據(jù)集
借助Azure帳戶,可以使用代碼或通過(guò)Azure服務(wù)界面訪問(wèn)開放數(shù)據(jù)集。數(shù)據(jù)與Azure云計(jì)算資源共置在一起,以供用于機(jī)器學(xué)習(xí)解決方案。
開放數(shù)據(jù)集通過(guò)Azure機(jī)器學(xué)習(xí)UI和SDK提供。開放數(shù)據(jù)集還提供Azure Notebooks和Azure Databricks筆記本,可用于將數(shù)據(jù)連接到Azure機(jī)器學(xué)習(xí)和Azure Databricks。也可以通過(guò)Python SDK訪問(wèn)數(shù)據(jù)集。
不過(guò),無(wú)需使用Azure帳戶,即可訪問(wèn)開放數(shù)據(jù)集;可以在含或不含Spark的任意Python環(huán)境中訪問(wèn)它們。
請(qǐng)求獲取或參與數(shù)據(jù)集
如果找不到所需的數(shù)據(jù),請(qǐng)向我們發(fā)送電子郵件,以請(qǐng)求獲取數(shù)據(jù)集或參與數(shù)據(jù)集。