Microsoft Accessを用いたデータの照合作業

Windowsコンピュータは、一応一台持っているのですが、この1年間全く起動していません。

今回、Microsoft Accessがどうしても必要になったため、おそるおそる起動させてみたのですが、調子が悪く、ディスプレイの解像度が低くなってしまっています。ちょっといじったところ、その他にもいろいろ不具合があり、それらを直す気力がありません。コンピュータというのもかわいがってあげなければ、ダメなわけです。

というわけで、Intel Macに導入しておいたParalles/Windows Vistaを使ってみました。

さて、今回、Accessでなければダメだった作業とはマイクロアレイの2つのエクセルファイルをgene_IDを目安に一つのテーブルにまとめ上げるという作業でした。

1つのファイルには、gene_IDごとにシグナル値などのデータがまとめてあるのですが、それぞれの遺伝子の詳細は含まれていません。一方、各gene_IDに対応する遺伝子情報をまとめた一覧ファイルがあるという状況でした。両者が、ともにgene_IDの並び順が同じで、途中抜けたりすることがなければ、コピーペーストでなんとか乗り切れるのですが、両者でgene_IDの並びがめちゃくちゃで、抜けている遺伝子も結構あるために、手作業で遺伝子情報をコピーペーストをするのは気が遠くなるような作業でした。

以前タカラバイオが出している小冊子に、こんなときMicrosoft Accessを使うと一発であるというのを思い出して、Accessを使うことになったわけです。

基本的な捜査としては、シグナル値を含むエクセルファイル、gene_IDに対応するエクセルファイルをAccessにインポートしておきます(「外部データインポート」>「エクセルファイル」)。「作成その他」>「クエリデザイン」で新しいクエリデザインを作り、それぞれのデータベースを配置します。そして、それぞれのデータベース上で関連づけるgene_IDを結合させます。そして、必要なフィールドを追加していきます。最終的に、「デザイン結果」>「表示」で、結合したテーブルができあがります。30000件ほどのデータ照合でしたが、本当に驚くほど短時間(1分以内)で終わらせることが出来ました。Parallesで動かしても、まったく速度は問題ないです。あとは、エクセル形式で書き出して、Mac側に持って行けばおしまい。

なかなか参考になった記事ですが、幸いダウンロードで読めますので、試したい方はお読みになって下さい。

BIO VIEW基礎講座データファイルDownload_47

アーカイブ

過去ログ一覧