研究

The faculty members of the 统计与数据科学系 are prominent scholars, 研究人员, 和顾问, 还有敬业的老师.

All are actively engaged in 研究 which is being published in professional journals. Their 研究 has been funded by major grants from private organizations and governmental agencies, 包括能源部, 高级研究计划局, 国家科学基金会, 海军研究局, 教育部, 空军科学研究办公室, 美国国立卫生研究院, 退伍军人事务部, 以及美国国家航空航天局.

教师们在以下领域积极工作：

统计教育的进展

学生需要通过练习来学习新材料, 大多数讲座的被动形式不利于主动学习. 准时教学（jit）, 翻转教室的一种特殊形式, 是一种主动学习的方法吗. 学生被要求在上课前复习课堂材料, 然后在课堂上他们回答有关材料的问题. 这种方法让学生多次接触重要的概念. 一篇关于在统计学入门课程中使用JiTT的文章出现了在这里. 此外，Dr。. 麦基尝试了不同的评分系统, 例如合约分级, 规范分级, 菜单分级, 提高学生的学习能力，减少成绩焦虑. 与传统的评分方式（两次考试和一次期末考试加上10%的家庭作业）形成对比, these other methods allow students to learn from their mistakes or make up for a slow start.

教师: Monnie麦基
成分数据的分析和方法

Compositional data consist of discrete outcomes (called components) that are proportions of a whole. 例如, daily activity can be composed of sleep, work, exercise, leisure time. 在每24小时内, 每项活动所花费的时间总和应该是24，并且可以很容易地转换成每项活动所花费时间的百分比. These data cannot be analyzed by classical statistical methods because they are forcibly dependent. Spending more time sleeping, for example, means less time for the other three activities. Monnie麦基和她的学生开发了基于嵌套Dirich let分布的方法来测试G独立组的成分差异, w在这里 G>2 (e.g.男性花费的时间与女性花费的时间相比. 女性，或者老年人，中年人，年轻人). 应用程序包括组件的比较狼疮患者的细胞群. 健康的病人, 在水迷宫中花费的时间为正常vs. 受损的老鼠微生物组数据种群的系统发育树年轻，职业生涯中期和有经验的棒球运动员的击球结果. This is continuing work with two former students, Jacob Turner (SFA) and Bianca Luedeker (NAU).

教师: Monnie麦基
贝叶斯方法及其应用

Bayesian hierarchical models enjoy flexibility in model construction and accommodation of complex data structures. 这一领域的研究涉及多种应用领域, 包括心理和行为科学研究, 高通量数据分析, 纵向和生存数据的时空分析. 目前, 我们正在构建时空预测模型来研究小样本量和异质性空间结构的经济观测研究中的干预效应. 另一个课题是研究具有分块缺失结构的高维多类型数据的预测与不确定性量化.

教师: 曹京
因果推论

在临床试验中，完全遵守指定的治疗方法，没有丢失数据, 从研究数据中做出因果推论是很简单的. 在所有其他情况下, 如果不对治疗分配机制做出一些假设，就不可能做出因果推论.e.，治疗分配对基线因素的依赖性. Together with several recent graduates of the biostatistics and statistics PhD programs, 我们已经开发了一些方法，在治疗分配机制复杂的情况下提取因果推论, 这是外科临床研究的典型案例. 我们还探讨了各种临床试验对个体依从性行为和因果效应相关性的敏感性. 我们关于这些题目的论文已经发表在 生物识别技术, 医学统计学, 国际生物统计学杂志.

教师: 丹尼尔Heitjan
临床试验设计与分析

具有相关结果的随机试验在医学中被广泛应用, 流行病学, 以及行为研究. Correlated outcomes are usually categorized into two types: clustered and longitudinal. The former arises from trials w在这里 randomization is performed at the level of some aggregate (e.g.，诊所)的研究对象(如.g.,患者). The latter arises when the outcome is measured multiple times during follow-up from each subject. In addition, missing data is a common issue which leads to the challenge of “partial” observations. 该研究旨在开发基于ge的样本量方法，涵盖各种类型的相关结果（连续的）, 二进制, 和计数)，并容纳丢失的数据, 相关结构, 财政限制. 基于这些结果的试验, 虽然比传统的随机试验更复杂, 在实践中提供更大的灵活性和效率.

教师: 曹京
基于傅里叶变换和抽象增广马尔科夫模型的DNA序列分析

目前的宏基因组学方法需要将读取的数据与基因组数据库进行比对. 这不仅在计算上很昂贵, but also identification of a microbial population is tied to the presence of a sequenced genome in a database. It is possible that novel microbial populations that have yet to be sequenced exist in samples from the mouth, 肺, 以及其他人类环境. 为了识别它们，有必要使用无对齐技术，例如抽象增广马尔科夫模型（AAMM）鉴定生物的属和种. Related to this, we are exploring the use of 傅里叶 coefficients as a signature for DNA sequences. 我们使用fc进行分类冠状病毒样本DNA序列的地理位置.

教师: Monnie麦基
中间事件触发的动态风险预测

电子健康记录和登记数据库提供的大量数据引起了人们对纳入时变患者信息以加强风险预测的极大兴趣. Unlike static risk prediction methods that provide a conditional survival function based on baseline predictors, 动态里程碑预测的重点是生存功能的条件下，病人的预测历史，直到一个特定的里程碑时间. 然而, 在应用基于树的方法时，纳入患者病史信息中涉及的复杂随机过程提出了挑战. 为了解决这个问题, 我们提出了一个使用生存树集成进行地标预测的统一框架, 允许在获得新信息时更新预测. 另外, 我们将患者的病史信息表示为固定长度的预测向量, 允许递归分区技术的应用程序利用随着时间增长的预测器信息.

教师: 史蒂文邱
复值数据分析

由无线通信应用驱动的一个新兴统计学领域是对来自数字通信系统的数据进行分析, 雷达, 声纳, 等. 它们不是实值而是复值. 当统计模型用于描述具有多输入多输出（MIMO）的5G通信网络中的数据传输时, the raw data are complex responses so each datum response has both amplitude and phase. 所有的传输系统和接收天线都有非同相的响应，而这些响应需要加入同相. 这些数据的分布理论对统计理论提出了特殊的挑战，特别是因为这些模型中感兴趣的参数本身就是典型的复值参数. 标准分布，如多元正态分布、Wishart分布等. 需要对复杂的多元正态建立一般化模型, wishard复杂, 还有很多其他的复值分布. 统计学中一个常见的误解是，当时间序列和卡尔曼滤波模型应用于高科技环境时，它们的实际响应版本通常是在统计学课程中教授的——它们不是. 相反，使用复杂分布理论的具有复杂值响应的模型用于处理微波传输和滤波理论最常用的例子：雷达和声纳跟踪移动物体. 由这些复杂数据导出的似然函数必然是实值函数，作为复值参数的函数，这保证了它们不是复解析函数. 这使得统计似然理论的发展变得复杂，因为统计似然理论需要对这种可能性进行区分. 这门学科的出现需要大量重写数理统计的基础知识，以适应从复杂数据中推断复杂参数的需要.

教师: 罗恩·巴特勒
几何和拓扑数据分析

A defining characteristic of many modern data applications is their unstructured nature. 分析的基本单位可以是传统观察之外的东西, such as regular arrays with fixed numbers of rows and columns and a single observation in each cell. Such questions are not amenable to traditional statistical procedures based on simple array-structured data. 几何和拓扑数据分析提供了数据形状的数学表示，并从复杂的数据集中提取结构信息. 我们已经开发了几何和拓扑数据分析的统计方法，提供了对数据形状的直接推断.

教师: Chul月球
人类活动模式

智能手机的几乎普遍采用为研究人员提供了前所未有的机会来收集有关人类移动的数据. 研究表明，通过此类数据获得的见解可以为某些疾病的治疗提供信息，或为其他疾病提供早期预警. 我们研究了新的模型来表示这些数据，并提出了统计方法来处理它们提出的一些挑战，如不完整或缺失的观测或测量误差.

教师: Marcin杰里科
拉普拉斯和傅里叶逆变换

物理和工程科学传统上使用拉普拉斯, 傅里叶, z变换作为分析复杂随机系统行为的均值. 这样的变换是大多数系统理论研究的基础，但通常是这样的变换的逆，如时域函数，这是更感兴趣的. 例如, 在任何随机网络或电路中, 系统中任意两个节点之间的等效透射率是相关脉冲响应函数的拉普拉斯变换或z变换，但更实际的是脉冲响应函数在时间上的变化. 因此，这种变换的反演成为一个重要的数学问题. 这种变换的数值反演来源于复变理论, 数值分析, 以及与浮点运算相关的计算数学.

教师: 罗恩·巴特勒
机器学习和文本情感分析

Machine learning (ML) has enjoyed great success in prediction and classification using big data. 然而, 由于机器学习算法的内部工作复杂，其期望的准确性往往与缺乏可解释性密切相关. 在实践中, 这可能是一种限制，因为可解释性对于理解和接受预测或分类结果至关重要. 为了迎接这一挑战, 我们尝试整合机器学习组件, 比如注意机制, 变成一个相对简单的参数统计模型结构. 我们将这一思想应用到文本情感分析中. 通过将ML的注意力机制（能够提供有意义的词嵌入向量）与相对简单的可解释统计模型相结合, 我们能够两全其美：统计模型的可解释性和机器学习算法的高预测性能.

教师: 曹京
混合值时间序列分析

Multivariate time series are routinely modeled and analyzed by the well-known vector autoregressive (VAR) models. 主要原因是由于所施加的线性关系使计算变得容易, 容易被广大观众理解, 并提供预测. Though VAR models are well understood from a theoretical and methodological point of view, 并且对于分析连续值数据非常有用, 当多变量时间序列的某些组成部分是整数值时，例如医院的每日新患者入院数，则不适合使用这些方法, 犯罪数量某一特定地区的犯罪数量, 一段时间内的交易量. The goal is to develop new statistical tools and models for analyzing multivariate mixed-valued time series data. 这一点很重要，因为多元时间序列数据, 离散和连续值, 是在不同的科学领域收集的，比如人口学, 计量经济学, 社会学, 公共卫生, 神经生物学是用来预测的, 规划和通知政策.

教师: Raanju Sundararajan
多元和高维时间序列分析

Time series data from various sources appear often in multivariate and high-dimensional form. 许多重要的问题从应用领域，如神经科学, 金融, 环境科学和工程涉及分析时间序列数据. 举个神经科学的例子, 来自神经科学实验的功能性磁共振成像（fMRI）数据被记录为来自大脑中数千个空间位置的信号的高维时间序列. 这里的兴趣在于理解不同大脑位置之间随时间变化的相互作用，并帮助将其与神经系统疾病联系起来. 作为工程方面的一个例子, 风能等可再生能源的电力系统运行依赖于多变量时间序列数据的建模和预测. 管理可再生能源电网对于有效利用能源至关重要，时间序列方法在这些系统的决策过程中起着核心作用. 在上述领域中发现的问题需要新的时间序列方法，这些方法在计算上是可行的，并且在理论上是有基础的. 正在进行的研究侧重于开发这些方法，这些方法在时间序列分析中具有理论和方法上的重要性.

教师: Raanju Sundararajan
测量对不可忽略性的敏感性

任何结果的大多数数据集都有一些缺失的观测值. 当缺失倾向与观测值相关联时, 我们说数据是不可忽视的缺失. Nonignorability can lead to bias and other problems when one applies standard statistical analyses to the data. 原则上, 人们可以通过估计考虑不可忽略性的模型来消除这类问题, 但众所周知，这些模型不够稳健，难以拟合. 另一种方法是测量对不可忽略性的敏感性, 这是, 来评估是否不可忽略, 如果存在的话, is sufficient to change parameter estimates from their values under standard ignorable models. A primitive version of this idea is to tally the fraction of missing observations in a univariate data set; if the fraction is small, 那么，不可忽略性引起的潜在偏差也可能很小. We have developed methods and software to measure sensitivity for a broad range of data structures, missingness类型, 还有统计模型.

教师: 丹尼尔Heitjan
非参数统计

非参数统计 aim to infer an unknown quantity while making a few underlying assumptions. 因为非参数方法的假设较少, 当有关应用程序的现有信息不足时，它们可能很有用. Nonparametric methods could provide more robust and simpler inference than parametric methods for various cases. 经验似然是非参数推理方法的一个例子.
教师: Chul月球
Non-probability抽样

林恩·斯托克斯指导了一个博士团队.D. 学生们正在进行两个与墨西哥湾渔业有关的项目. 第一个, 通过与NOAA的合同资助, 是否正在开发和评估评估休闲垂钓者渔获量的新方法. These methods augment data from traditional surveys of anglers with real-time electronic self-reports. 这些新方法被认为是替代或补充 NOAA目前的数据收集方法. 第二个项目，大红鲷鱼计数, 是一个由21名多学科研究人员组成的团队耗资1000万美元、历时两年的项目，他们将对墨西哥湾的红鲷鱼数量进行独立的渔业评估. 新大团队为该项目提供统计支持, which will require integrating a variety of data collection and estimation strategies across the Gulf.

教师: 林恩·斯托克斯
次序统计量

序统计量是样本中随机变量的已实现的排序值. 序统计量的研究在许多问题中都是有用的, 例如，评估依赖于许多相似部件的性能的制造系统的可靠性，或者评估人寿保险公司的保单组合的风险. Inference from order statistics can provide robust and cost-effective testing and estimation. An example of efficient estimation using the theory of order statistics is ranked set sampling.

教师: Xinlei王林恩·斯托克斯, Chul月球
排名和选择

Decision-makers are frequently confronted with the problem of selecting from among a set of possible choices. 排名和选择 addresses the problem of how to choose the best among a group of items, 那些物品的质量是不完美的. Another aspect of the problem that we have studied is how to assess the quality of the measures themselves; i.e.，对排名进行排名. 我们的方法包括对评估过程进行建模的各种方法. Applications have been wide-ranging, from wine-tasting, to proposal evaluation, to diving scores.

教师: 曹京, 林恩·斯托克斯, Monnie麦基
临床试验中的实时预测

临床试验计划包括预定的入组时间和随访时间，以达到目标研究效果. 如果试验前对入组人数和事件发生率的估计不准确, 预测可能是错误的, 导致权力不足或其他资源分配不当. 我们已经开发了一系列方法，使用累积的试验数据来有效和正确地预测未来的入学人数, 里程碑事件发生的时间, 估计最终治疗效果, 以及审判的最终意义.

教师: 丹尼尔Heitjan
反复事件分析

复发事件分析在生物医学中有着广泛的应用, 公共卫生, 和工程, 在其他领域, 在随访期间，受试者会经历一系列感兴趣的事件. 然而, 仅仅关注第一个事件的简单生存方法可能会忽略后续事件的宝贵信息, 导致偏见和潜在的误导性结果. 因此, 在不丢失信息的情况下处理重复事件时间的顺序性质的方法已经得到了相当大的关注. 因为反复发生的事件可以通过信息审查或终止事件来终止, 利用脆弱性模型来放宽条件独立审查的假设，并将循环事件过程和终端事件联合建模，已引起人们极大的兴趣. We have developed a general scale-change joint model that encompasses the popular Cox-type model, 加速速率模型, 加速平均模型是特殊情况, 在不需要任何参数说明的情况下，通过特定主题的弱点进行信息审查.

教师: 史蒂文邱
鞍点逼近与高阶渐近理论

在统计和概率论中使用的现代方法通常需要从复杂的模型中计算概率，其中已知的是兴趣分布的潜在变换理论，而不是它们的显式表达式. It is in this context that saddlepoint methods aid in the computations of such probabilities. Of particular relevance are the majority of probability computations used in stochastic modeling. 高阶渐近理论的伴生学科提供了比通常使用基于弱收敛理论的中心极限理论推导出的计算更精确的工具.

教师: 罗恩·巴特勒
可扩展高斯过程及其在地球科学中的应用.

现代遥感技术已经产生了数量惊人的环境数据，这有助于对地球生态系统的控制机制产生新的见解. Many of the popular tools used to model such data are based on Gaussian processes (GPs). 这种通用且易于分析的方法为量化不确定性提供了一种自然的方法，但通常存在计算问题. 在这方面的研究中，我们探索新的方法来利用GPs在环境数据分析中的有利特性，同时确保它们可以扩展到大规模数据集.

教师: Marcin杰里科
体育分析：游泳、跳水、田径

体育分析是一门大生意, 尤其是在足球方面, 篮球, 棒球, 足球, 和曲棍球. 麦基将她的体育分析工作集中在“个人团队运动”上。, 比如田径、游泳和跳水, 哪个个人表现对团队得分至关重要. 最近的研究表明，女孩和男孩在高中时在跑步项目上的表现不会趋于稳定, 正如之前所认为的那样, 已发表于美国统计学家. 一篇文章表明，在一场地区跳水比赛中，裁判对跳水运动员的排名与从同一跳水比赛的视频中获得的测量结果是一致的《威尼斯人娱乐城》. 一项用于教育用途的跳水比赛的分数数据已发表在统计与数据科学教育杂志.

教师: Monnie麦基
随机过程，反馈系统和网络

这门学科涉及随机现象在空间和时间上的研究和建模，特别强调系统的组成部分如何相互作用以创造随机现象的动力学. 反馈过程和机制是这一主题的一个组成部分. 这些模型包括马尔可夫链, 半马尔科夫过程, 扩散过程, 以及他们潜在的更新理论. This subject body represents the majority of mathematical models used in the physical sciences, 工程科学, 以及随机金融.

教师: 罗恩·巴特勒