数据科学通常被视为 (1) 计算机和信息科学、(2)统计科学和 (3) 专业领域知识的汇合。这三个支柱并不对称:前两个支柱共同代表了数据科学中使用的核心方法和技术,而第三个支柱是应用该方法的应用领域。在该计划中,核心数据科学培训侧重于前两个支柱,以及应用他们的技能来解决应用领域问题的实践。
我们将所需的数据科学技能分为两类:统计技能,例如统计和生物统计学系教授的技能,以及计算技能,例如计算机科学与工程部和信息学院教授的技能。该计划的设计是要求每个学生在这两个领域接受平衡的培训。为了制定实现这种平衡的学术计划,并培养更大的共享社区意识,我们不打算在拟议的学位课程中提供任何子计划或课程。相反,我们希望该计划的毕业生能够理解高级数据表示和分析。
通过数据科学硕士课程,所有学生将能够:
识别相关数据集
将适当的统计和计算工具应用于数据集,以回答个人、组织或政府机构提出的问题
设计和评估适合数据的分析程序
在多计算机环境中的大型异构数据集上有效地实现这些目标
先决条件
我们多元化的研究生社区来自许多不同的国家和许多本科专业,包括统计学、数学、计算机科学、物理学、工程学、信息学和数据科学。虽然不需要数据科学本科专业,但预计申请人在加入之前至少具有以下背景:
2个学期的大学微积分
1 学期线性或矩阵代数
1 计算机概论课程
MDS课程
学生必须选修以下核心课程
MATH 403:离散数学导论(第一学期)
EECS 402:科学家和工程师编程(第一学期)
EECS 403:数据结构和算法的研究生基础(先决条件:MATH 403 和 EECS 402)
以下 1 项
BIOSTATS 601:概率与分布理论
STATS 425:概率简介
STATS 510:概率与分布
以下 1 项
BIOSTATS 602:生物统计推断
STATS 426:理论统计概论
STATS 511:统计推断
数据管理和操作方面的专业知识
以下 1 项
EECS 484:数据库管理系统
EECS 584:高级数据库系统
以下 1 项
EECS 485:Web 系统(仅适用于春季学期的 MDS 学生)
EECS 486:信息检索和 Web 搜索
EECS 549/SI 650:信息检索
SI 618:数据操作分析
STATS 507:使用 Python 进行数据科学分析
数据科学技术方面的专业知识
以下 1 项:
BIOSTAT 650:应用统计学 I:线性回归
STATS 500:统计学习I:线性回归
STATS 513:回归和数据分析
以下 1 项:
STATS 415:数据挖掘和统计学习
STATS 503:统计学习II:多变量分析
EECS 545:机器学习 (CSE)
EECS 553:机器学习 (ECE)
EECS 476:数据挖掘
EECS 576:高级数据挖掘
SI 670:应用机器学习
SI 671:数据挖掘:方法和应用
BIOSTAT 626:用于健康科学的机器学习
顶点
* 详情请参阅MDS顶点指南。
STATS 504:应用统计学的实践与交流
STATS 750:定向阅读
EECS 599:定向研究
SI 691:独立学习
SI 699-xx5 大数据分析
BIOSTAT 610:生物统计学阅读
BIOSTAT 698:流行病学研究中的现代统计方法
BIOSTAT 699:生物统计调查分析
选修课
从每组中选择一门至少1学分的课程。选修课必须包括至少 3 门高级研究生课程(LSA、UMSI 和 CoE 达到 2 级或以上,或 SPH 达到 500 级或以上)。EECS 600 特殊主题将根据其类别每学期批准特定部分。
数据科学原理
BIOSTAT 601 (概率与分布理论) |BIOSTAT 602(生物统计推断)|BIOSTAT 617(样品设计)|BIOSTAT 626(机器学习方法) |BIOSTAT 680 (随机过程) |BIOSTAT 682(贝叶斯分析) |EECS 501(概率和随机过程)|EECS 502(随机过程) |EECS 545(机器学习)|EECS 551(用于信号处理、数据分析和机器学习的矩阵方法)|EECS 553(机器学习 (ECE)) |EECS 559(SIPML 优化方法) |EECS 564(估计、滤波和检测)|SI 670 (应用机器学习) |STATS 451(贝叶斯数据分析简介) |STATS 470 (实验设计导论) |STATS 510(概率与分布理论) |STATS 511 (统计推断) |STATS 551(贝叶斯建模与计算)
数据分析
BIOSTAT 651 (广义线性模型) |BIOSTAT 653(纵向分析) |BIOSTAT 666 (人类遗传学统计模型和数值方法) |BIOSTAT 675 (生存时间分析) |BIOSTAT 685/STATS 560 (非参数统计) |BIOSTAT 695(分类数据) |BIOSTAT 696 (空间统计) |EECS 556(图像处理)|STATS 414 (应用数据分析专题) |STATS 501 (应用统计学II) |STATS 503 (统计学习II:多变量分析) |STATS 509 (财务数据统计) |STATS 531 (时间序列分析) |STATS 600 (线性模型) |STATS 601(多变量和分类数据分析) |STATS 605(建模和数据分析高级专题)|STATS 700 (应用统计学专题) |
计算
BIOSTAT 615 (统计计算) |BIOSTATS 625 (大数据计算) |EECS 481(软件工程)|EECS 485 (网络系统) |EECS 486(信息检索和网络搜索)|EECS 504(计算机视觉)|EECS 542(计算机视觉高级专题)|EECS 548/SI 649(信息实现) |EECS 549/SI 650(信息检索) |EECS 572(随机性和计算) |EECS 586(算法设计与分析) |EECS 587(并行计算) |EECS 592(人工智能)|EECS 595/SI 561(自然语言处理) |SI 608 (网络) |SI 618 (数据处理与分析) |SI 630(自然语言处理:算法与人) |SI 664 (数据库应用程序设计) |SI 671(数据挖掘:方法和应用)|STATS 406 (统计与数据科学中的计算方法) |STATS 506 (统计学中的计算方法和工具) |STATS 507(使用 Python 的数据科学分析)|STATS 551(贝叶斯建模与计算) |STATS 606 (统计学中的计算和优化方法) |
为什么选择 UM Statistics
学院
该系拥有许多在现代统计科学前沿工作的杰出教师,从核心理论到应用都有广泛的研究兴趣。许多教师都获得了国家和国际统计组织的著名荣誉,并曾在该领域顶级期刊的编辑委员会任职。大多数教师都有多项联邦政府资助的研究资助,并经常支持他们的高级博士生作为研究助理。大多数教师与其他领域的研究人员进行跨学科合作,包括生命科学、工程和计算机科学、社会科学、商业和医学,其中一些教师在其他部门担任礼节性任命。我们还与统计学家和其他对生物统计学、电气工程和计算机科学、数学、复杂系统、工业和运营工程、调查方法、社会研究所、信息学院和罗斯商学院有密切兴趣的人合作。
学生
我们多元化的研究生社区来自许多不同的国家和许多本科专业,包括数学、计算机科学、物理学、工程学、经济学、政策与管理、社会学和政治学。研究生是该系充满活力的知识环境不可或缺的一部分。他们组织了学生研讨会系列和密歇根跨学科统计科学学生研讨会以及各种社交活动。
大学
密歇根大学是一所世界一流的大学,一直位居世界前 20 名。全校大多数项目和部门都在各自领域的前 5-10 名。我们的许多教职员工都有跨学科的合作,我们的研究生有机会与各个领域的顶尖科学家合作。密歇根州还拥有一所优秀的医学院和一所备受推崇的大型大学医院,为生命科学领域的合作提供了许多额外的机会。
小镇
安娜堡是一个非常宜居的地方。文化和娱乐机会可与大城市相媲美,但没有大城市生活的许多缺点。由于距离五大湖的距离相对较远,气候比中西部的许多其他地区温和,距离主要国际机场 (DTW) 仅 30 分钟路程。安娜堡还有许多不错的餐厅、美丽的公园和优秀的公立学校。