Microarray raw data 処理

FGSU の kasu 氏によるセミナー (勉強会?) 。Affymetrix社が考案した MAS5 (Microarray Analysis Suite) という background 補正法と RMA (Robust Multi-chip Average) 法の原理についての概念を叩き込まれる。後で詳細を追記しよう。
Affymetrix 社の DNA chip (登録商標は GeneChip) は各遺伝子の mRNA に対して、いくつかの完全一致プローブ (PM) と中央にミスマッチが入ったプローブ (MM) が設計されている。Affy 純正の解析ソフトには、 MAS5 解析アルゴリズムが実装されており、各プローブのバックグラウンド補正を行った後、PM と MM のシグナルの差の対数をとり、外れ値の影響を避けるための Tukey's One-step Biweight Mean という平均を計算するという行程をとる。このとき、 PM と MM の差がマイナスにならないような工夫が施されている。
MAS5 は、一枚のアレイ内で補正を行う。具体的にはまず、アレイを 16 分割し、それぞれの分割区域内でのシグナルが下位2%であるものの平均値と標準偏差をバックグラウンドを表現する値として利用する。アレイ上の任意の一点に対し、そこからの各分割区域の中央までの距離の二乗を重みとしたバックグラウンドのみなし代表値の平均を算出し、その点におけるシグナルからの差をとって、補正後のシグナル値とする。補正後にシグナルが負の値を取らないような処理もある。
RMA では、複数枚のアレイ間で補正を行うことになる。まずバックグラウンドシグナルは正規分布をとることと、真のシグナルは指数分布をとることを仮定する。この仮定は生シグナルの分布を経験的に判断した結果に基づく。さらに、シグナルの絶対値が低い領域ではバックグラウンドの寄与が大きく、シグナル絶対値が高いところではバックグラウンドの寄与が小さいという仮定のもと、指数分布のパラメータ決定にはシグナルが大きいところからの近似を行い、正規分布のパラメータは低シグナル部分を用いる。
さらに、決定された分布のパラメータと確率密度分布と累積度数分布を用いて各点におけるシグナルの真の値の「期待値」を算出する。その上で、Median polish 法という手続きはわかるのだが、数学的な意味がよくわからない手法を用いて、アレイ間の補正を行って各点におけるシグナルを決定する。