2008.06.18

医家向け電脳道具箱その五「ソーシャルブックマークの可能性」

医家向け電脳道具箱第五回分を掲載します。

■ソーシャルブックマークとは?

ソーシャルブックマークは、この1,2年で急速に普及した新しいwebサービスの一つである。

よく見るwebサイトのアドレスをブラウザに登録することをブックマークという。Internet Explorerであれば「お気に入り」に登録することである。しかし、自宅と勤務先で違うコンピュータを使っていたりすると、二つのコンピュータのブックマークを同期させておくのは、意外と面倒である。そこで、10年くらい前から、オンラインでブックマークを保管できるサービスがあった。自分のアカウントを作って、そこにブックマークをためておけば、インターネットを通じてどこからでも同じブックマークにアクセスできるというのが魅力であり、一定数のユーザーの人気を集めていた。

ソーシャルブックマークは、このオンラインブックーマークを一歩進めたサービスである。自分のオンラインブックマークを公開し他人と共有することで、あらたなコミュニケーションツールとして新しい可能性を生み出し、この1,2年でブレイクした。

ソーシャルブックマークサービスは、たくさんの会社が始めているが、世界的に見れば、ソーシャルブックマークの草分けである「del.icio.us」(図1)が有名である。国内では「はてなブックマーク」(図2)の人気が高い。

 

■ソーシャルブックマークがなぜブレイクしたか?

なぜ、自分のオンラインブックマークを公開し共有するだけで、新たなコミュニケーションツールとしての可能性が生まれるのか?私も愛用しているはてなブックマークを例にとって説明したいと思う。

はてなブックマークを始めるためには、まず、アカウントを作る必要がある(無料)。自分が興味を持ったwebサイトや記事があれば、ブックマークレットという仕組みを使って、簡単にはてなブックマークに登録ができる。通常のブックマークだとwebサイトのトップページを登録することが多いと思うが、ソーシャルブックマークではwebサイトのトップページを登録するよりは、各記事を登録することが多い。

登録する際には、自由にタグを付けることができる。[研究留学]とか[Mac]とか[医学情報データベース]とかつけて、自分なりのカテゴリ分けをするわけである(図3)。[あとで読む]というタグをつけて、時間のあるときにゆっくり読むために保存している人も多い。また、タグ以外にも自由にコメントを付けることができる。タグやコメントはオプションなので必ずしも付ける必要はないが、有効にソーシャルブックマークを使うなら付けておいた方が便利である。以上でブックマーク登録は終了である。

自分のブックマークは非公開にして、「ただのオンラインブックマーク」として利用することもできるが、多くの人が自分のブックマークを公開することによってソーシャルブックマークの本来の目的が達成される。他人のブックマークを覗くことで、似たような興味を持った人がどのような記事をブックマークしているのかを知ることができ、情報が飛躍的に広がるのである。たとえば、自分のブックマークの中で、他の人が同じwebサイトや記事をブックマークしていれば、そのことが表示される(何人が登録しているかという数字が表示される、図4)。誰がブックマークしているかもわかり、その人の名前をクリックすれば、その人のブックマークの一覧が表示される。同じ記事をブックマークしているということは、興味が重なっているわけであるから、その人のブックマーク一覧を見ることによって新しい発見をする可能性がある。

ソーシャルブックマークのもう一つの新しい側面は、ブックマーク数がひとつの注目度の指標になってきているということである。はてなブックマークでは、それぞれの記事において何件のブックマークが付けられているのかが表示される。何十人という人がブックマークを付けている記事はかなり注目度の高い記事であるといえる。はてなブックマークのトップページでは、日替わりで「最近の人気エントリー」「注目のエントリー」が表示され、たくさんのブックマークが付けられた記事を知ることができる。

この機能を使うと、あるブログの中で一番人気の高い記事を探すということもできる。たとえば、私が書いている研究留学ネットの中で、ブックマークされている数に基づいて人気の高い記事のランキングを作ることができる。URIにhttp://b.hatena.ne.jp/entrylist?sort=count&url=http://www.kenkyuu.net/
と入力することで、ブックマーク数の多い順に記事を並べることが出来る。トップページがもっとも多く(35)ブックマークされているが、次は、「研究者のためのコンピュータフォーラム [論文PDFファイルの整理方法]という記事が15ブックマークで人気があることがわかる。

また、コメントという機能を使って、ある記事に対して大勢の人がコメントを付けることによって、コミュニケーションツールとしても広がっていく可能性があり、まさにWeb2.0的サービスと言える。

 

■学術論文に特化したソーシャルブックマークサービス〜CiteULikeとConnotea

実は、学術論文に特化したソーシャルブックマークサービスがある。そのひとつがCiteULike日本語版 )(図5)である。CiteULikeはRichard Cameronという研究者が、開発し、無料サービスとして提供しているものである。CiteULikeが普通のソーシャルブックマークと違って、「学術論文専門」を名乗っているのは、学術論文データベースから、書誌情報を抜きだしてくる機能があるからである。たとえば、PubMedを使って、興味のある論文を見つけたとする。通常のソーシャルブックマークでブックマークしても、タイトルは「Entrez PubMed」となってしまい、コメント欄に、論文のタイトルや著者名を自分で打ち込まなければならない。しかし、CiteULikeは論文のタイトル、著者名、など書誌情報を自動的に取り込んでくれるので、ブックマークの一覧はあたかも文献データベースのようになる。しかも、ソーシャルブックマークであるので、公開し他人と共有することができる(非公開を選ぶこともできる)。PubMed以外にもScopusやNature誌、Science誌、Amazonなど多くの文献データベースや出版社のサイトに対応している。

自分の文献データベースを作る以外にも、いくつかの便利な使い方がある。気になる論文だけれど、abstractを読んでいる暇がないというときは、CiteULikeでブックマークしておく。そして後で時間ができたときに読むという使い方もある。また、同じ研究グループの人たちでブックマークを共有するという使い方もある。コメントを付けることができるので、各人がコメントを付ければ、簡単な輪読会のようなものにできる可能性もある。このように、文献情報に特化したソーシャルブックマークというのも大きな可能性を持ったwebサービスであるといえる。

CiteULikeは個人が運営しているという点では、このサービスが今後も安定して継続されるのか少し不安がある。一方で、ConnoteaもCiteULikeと同じ文献情報のソーシャルブックマークであるが、こちらはNature Publishing Groupが運営している。

 

■学術論文のソーシャルブックマークの可能性

CiteULikeとConnateaは、ソーシャルブックマークの便利さや楽しさを知った人には非常に魅力的なサービスといえる。しかし、現時点で、これら学術論文のソーシャルブックマークがうまくいっているかと聞かれれば、Noと答えざるを得ない。その最大の理由は、参加者数が少ないために、「ソーシャル」の魅力が引き出せていないことによる。Bioinfomaticsなどの分野ではそこそこの参加者を集めているようだが、私の専門分野の腎臓内科学などは参加者が少ない。ソーシャルブックマーク自体ブレイクしたとは言え、私の周りでも愛用している人というのにはなかなかお目にかからない。さらに学術論文に特化したソーシャルブックマークとなると、普及するにはまだ時間がかかるかもしれない。でも、この記事を読んだ方で興味を持たれた方がいれば、一度ご自分で使ってみて頂きたい。

 

■医学情報においてWeb 2.0時代はやってくるのか?

ソーシャルブックマークはWeb 2.0的なサービスの代表的なものであるが、医学情報においても今後Web2.0的なサービスが増えてくるのだろうか。現時点では医学情報においてはほとんどWeb2.0的サービスは存在していない。

少し私見を述べさせてもらう。Web2.0においても最も重要なのは集合知であると考える。これまでは少数のauthorityによる情報で構成されていた知識が、インターネットを介して、多数の非権威者の知識を集めることによって代替可能、もしくは、よりすぐれたものになり得るという考え方である。玉石混淆の知識の中にはある程度の不正確な情報も含まれる可能性もあるが、それらも許容し、情報にランキングを付けることによって、それをカバーする。情報にランキングを付ける方法としては、閲覧数だったり、権威のあるサイトからのリンクであったり、ユーザーからの評価であったりする。しかし、医学情報の場合、たとえ少数であろうとも不正確な情報を許容することは難しいという側面がある。集合知という観点から見れば、Wikiは代表的なWeb2.0サービスといえる。最も代表的なWikiであるWikipediaにおいても医学情報の頁には「医療情報に関する注意:ご自身の健康問題に関しては、専門の医療機関に相談してください。」とのコメントがついている。このことを見ても、まだまだ医学情報においては、Web 2.0サービスが増えてくるには時間がかかると多くの方が思われるであろう。

2006年にNature誌が試みた新しい査読システムのテストをご存じであろうか?最もインパクトの高い学術誌、Nature誌においてopen peer reviewという査読システムが試験運用された。論文がインターネット上に公開され、誰でもコメントをつけてよりという、まさにWeb2.0的な査読システムであった。残念ながら、思ったほど多くのコメントを集められなかったという意味では成功はしなかった。しかし、今後、我々が思いもよらないスピードでWeb 2.0的サービスが医学の世界でも普及するのかもしれない。

以上、医学のあゆみ221巻7号「ソーシャルブックマークの可能性」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.04.18

医家向け電脳道具箱その四「最新論文を見逃さないための小道具達」

だいぶ時間があいてしまいましたが、医家向け電脳道具箱第四回分を掲載します。

■RSS~ネットサーフィンはもう古い

RSSという言葉を聞いたこともあるだろうか。RSSとは、更新情報を利用者に通知するための仕組みである。RSSには、RSS1.0、RSS2.0、Atomといった異なるバージョンがあり、やや混乱している側面もあるが、blogが流行するとともに、RSSは広く使われるようになってきている。学術雑誌でもNature、Science、New England Journal of Medicineをはじめ、RSSによって最新記事の要約の配信をしているジャーナルが出てきている。

RSSの実体は、更新情報の概要をまとめたXMLファイルであり、サイト運営者は、このファイルをwebサイトにおき、利用者はRSSリーダーを用いてWebサイトの更新情報を取得できる。RSSリーダーは定期的に登録したRSSフィードを見に行ってRSS情報を取得する。利用者はRSSリーダーを見ることによって、複数サイトのうち更新のあったサイトの更新情報の要約を一覧として見ることができる。昔は自分のお気に入りのブックマークを作り、ブックマークを次々とクリックしてネットサーフィンをするというのが一般的だったが、現在はRSSリーダーを使うことでネットサーフィンしないで複数のサイトの新着情報を一度にチェックできるようになった。

RSSの最大のメリットはこのように新着情報をまとめて一覧できるということであるが、その他にもいくつかのメリットがある。webサイトの新着情報をメールで知らせるというサービスに比べると、新着情報をRSSで受け取ることは、たくさんのスパムメールに悩まされていて、少しでも受け取るメールを減らしたいという受け手側のメリットになる。また、発信者のメリットとしては、メールアドレスのような個人情報を管理しなくてもよいという点がある。自分でwebサイトを運営するような場合には、RSSから取得した新着情報を自分のwebサイトに貼り付けるという利用の仕方もできる。農林水産研究情報センター(http://ss.cc.affrc.go.jp/ric/home.html)のサイトなどはそのいい例であろう。

RSSを利用するにはRSSリーダーが必要である。RSSリーダーには専用のソフトウェアもあるが、最近のウェブブラウザ(Firefox、Internet Explorer 7、Safariなど)はRSS機能を持っており、これらのソフトを使う人が多いようである。また、RSSリーダーの機能をWebサービスとして提供しているサイト(Bloglines、Yahoo!RSSリーダー、Google Reader、はてなRSS、など)もあり、こちらは、私のように職場と自宅で複数のコンピュータを使っているような場合は便利である。私はもっぱらBloglinesを愛用している。

■eTOCアラートサービスで新着雑誌を見逃さない

私は大学院生の頃図書館の新着雑誌の書架を眺めることを日課にしていたが、いまではeTOC (electoric Table of Contents)アラートサービスのおかげで、図書館に足を運ばないで済むようになった。eTOCアラートサービスとは文字通り「電子目次」のアラートサービスであり、登録したジャーナルの最新刊の目次がメールで送られてくるというサービスである。毎回目を通しておきたいジャーナルのeTOCアラートサービスに登録しておけば、そのジャーナルの新しい号が発刊されると、目次がメールで送られてくる。その「電子目次」にはタイトルや著者名のほか、抄録やフルテキストへのリンクが張ってあるので、気になる論文があれば、ワンクリックでフルテキストを読むことができる(各施設のオンラインジャーナルとの契約状況による)。ジャーナルが実際に図書館に郵送されるのを待つ必要もないし、見逃すこともなく、最新号の目次が手に入る。オンラインジャーナルがなかった時代には、海外のジャーナルが発行されてから図書館に届くまでには数ヶ月かかるといったこともあったが、オンラインジャーナルの普及のおかげで、海外との情報の格差はなくなり、ETOCアラートサービスのおかげで、最新情報をタイムリーに取得できるようになった。eTOCアラートサービスを利用するには、各ジャーナルのwebサイトに行き、eTOCサービスを見つけ、配送して欲しいメールアドレスを登録するだけである(図1)。必ずしもすべてのジャーナルがeTOCサービスを提供しているわけではないが、一流紙と呼ばれるジャーナルはほとんど提供している。

■Biomailで見逃しゼロに

お気に入りのジャーナルの目次だけチェックしていても、まったく関係のないジャーナルに自分の研究に関連した論文が出ることもある。こういった見逃しをなくすためには、定期的に特定のキーワードでPubMedの検索をおこなえばいいわけだが、それを自動で定期的におこない、見つかった場合にはメールで知らせてくれるサービスがある。このようなサービスを比較的早くからおこなっていたのは、Biomail(http://www.biomail.org/)(図2)である。Biomailでは、PubMedで検索したい検索式を最大20個登録することができ、定期的に(週に1回、週に2回、月に1回、月に2回から選べる)検索をかけて検索結果をメールで知らせてくれる。

■PubMedのアラートサービスが始まった

2005年になって、PubMedを運営している本家本元のNCBIがBiomailと同様のサービスを始めた。My NCBI(図3)はPubMedの検索式が保存できるサービスであるが、その検索結果を定期的にメールで送信するサービス(Automatic e-mail updates)が開始されたのだ。Automatic e-mail updatesサービスがBiomailと比べて優れているのは、
・検索頻度が1日に1回から月に1回まで細かく設定できる。
・文献データだけでなく、NCBIデータベースのすべてのデータが対象になる。
・検索語の数の上限が100(Biomailは20)。
・本家がおこなっているという安心感がある。
といった点である。一方、Biomailと比べて劣っているのは、
・検索語の数だけメールがくるので鬱陶しい。
という点である。私は、この点で現在はBiomailの方を愛用している。1週間に1度くらい送られてくるくらいの頻度が適度であり、毎日送られてきても見るのがおっくうになる。

Automatic e-mail updatesを利用するためには、まず、My NCBIのアカウントを作る必要がある。PubMedのトップ頁の右上の「Register」をクリックしてアカウントを作っておく。検索したときに、その検索式を保存したいと思ったら、「Save Search」をクリックする。そうすると、Automatic e-mail updatesサービス(同じ検索式にマッチする論文が出てきたときにお知らせメールが届く)を希望するかどうか聞かれる。あとは、どのくらいの頻度でメール配信を希望するか?メールのフォーマットを何にするか?新しい論文がないときにはメールをするか?などのオプションを選ぶことになる。

2006年からは、さらにPubMedの検索をRSSとして受診することができるようになった。PubMedで検索したときに、そのキーワードでRSS配信を受け取りたいと思ったら、「Send to」とあるプルダウンリストから「RSS feed」を選ぶ(図4)。そして、検索に対して名前を付けたり、検索結果数のオプションをセットして、「Create feed」ボタンをクリックする。 そうすると、「XML」と書かれたアイコンが登場し、これが、RSSフィードのURLである。あとは、自分のRSSリーダーに登録すればよい。こうすると、メールによるアラートではなく、RSSリーダーで最新論文をチェックできるのである。

■手に入れたフルテキストPDFはどうするか?

皆さんは、ダウンロードしたフルテキストPDFファイルはどのようにしているだろうか?本来はディスプレイ上でフルテキストを読めば、紙の節約になるのだが、私はディスプレイ上で論文を読むというのが苦手なので、ほとんどプリントアウトして読んでいる。プリントアウトした論文はファイリングして保存するというアナログな整理方法をいまだ続けている。しかし、PDFファイルをディスプレイの上だけで読むのであれば、論文のコピーをしまう場所も必要なくなり、PDFファイルのままコンピュータ上に保存しておけばよい。ハードディスクのPDFファイルを管理するのに適した文献管理ソフトウェアがいくつかある。最も有名なソフトはEndNote(トムソン社)であろう。EndNoteでは自分の集めたオリジナルの文献データベースを作ることができ、それぞれの文献データに、そのpdfファイルをリンクさせることができる。また、MacではiTunesライクなインターフェースを持ったソフトウェアにiPapers(フリーウェア、http://homepage.mac.com/toshihiro_aoyama/iPapers/)(図5)やPapers(シェアウェア、http://mekentosj.com/papers/)があり、文献管理に特化するならこちらの方がEndNoteより使いやすい。

以上、医学のあゆみ221巻3号「最新論文を見逃さないための小道具達」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.25

医家向け電脳道具箱その参「医中誌Webの検索達人をめざす」

前回の医家向け電脳道具箱では「医学中央雑誌刊行会訪問記」として医学中央雑誌(医中誌)データベースがどのように作られているのかを紹介した。データベース製作の裏側を見ることによって、医中誌Webでの検索ヒット率を上げる方法がいくつか見えてきたので紹介したい。なお、医中誌データベースのインターフェースは2つあり、大学や病院など法人での契約の場合「医中誌Web」となり、個人での契約では「医中誌パーソナルWeb」となる。両者には基本的な差異はないので、「医中誌Web」を使って話を進めることにする。

 

■アドバンスドモードを使う

医中誌Webの検索画面にはベーシックモード(左図)とアドバンスドモード(右図)の2つの検索モードが存在する。両者の違いは、ベーシックモードがシンプルなインターフェースであるのに対し、アドバンスドモードにはベーシックモードにはない2つの機能を備えていることにある。その機能とは、検索履歴が残り、その検索履歴を使った履歴検索ができることと、候補語辞書の参照ができることである。ユーザーの使用率では、ベーシックモードを使っているユーザーの方が多いようだが、検索達人を目指すなら、間違いなくアドバンスドモードを使うことをおすすめする。

 

 

■シソーラスを理解する

前回の「医学中央雑誌刊行会訪問記」では、医中誌データベース作製において、インデクシングという作業が行われているという話をした。インデクシングというのは、各文献に対してキーワードを付与する作業である。この際、重要なのが、勝手なキーワードを付けないように、キーワード集をあらかじめ用意しておくということである。このキーワード集をシソーラスという。医学領域のシソーラスとしてもっとも有名なのが、米国国立図書館(NLM)で作成しているMedical Subject Headings (MeSH)であり、MEDLINEの索引・検索に用いられている。医学中央雑誌刊行会でもMeSHにほぼ準拠した日本独自のシソーラスとして「医学用語シソーラス」を作製しており、最新版は第6版になっている。PubMedや医中誌Webの高い検索効率を支えているのが、シソーラスを用いたキーワード検索の仕組みである。

データベース検索には大きく分けて2つの方法がある。ひとつは、全文検索であり、データベース中に存在する文字列をすべて検索する方法である。全文検索はコンピュータ負荷が大きいが、近年ではコンピュータの高性能化が十分に進んだため、Googleなどの検索システムで採用されている。もう一つの検索方法がキーワード検索である。キーワード検索は、各データにキーワードを付け、それによって検索をおこなう方法である。キーワードを付与するという手間がかかるが、検索が高速になるとともに、主題が一致しているにもかかわらず全文検索でヒットしないデータもヒットできるという特徴がある。PubMedや医中誌Webの場合、格納されているデータは、タイトル、著者名、抄録など限られたデータであり、全文検索で高率にヒットさせるのは難しい。そこで、各文献データにシソーラスに基づいたキーワードを付与することにより、キーワード検索を可能にしている。実際には、キーワード検索と同時に全文検索もおこなうことで検索ヒット率を上げている。たとえば、「糖尿病性腎硬化症」で医中誌データベースを全文検索するとわずか5件しかヒットしない。しかし、「糖尿病性腎硬化症」をキーワード検索を使って検索すると4960件にまでヒット数が跳ね上がる。これは、「医学用語シソーラス」の中で「糖尿病性腎硬化症」は「糖尿病性腎症」と同義語であると索引されていて、「糖尿病性腎症」というキーワードで検索しているからである。

前述したように、シソーラスは同義語の中でどれかひとつをキーワード(統制語、またはディスクリプタと呼ぶ)として指定している用語集である。たとえば、医学用語シソーラスでは、糖尿病性腎症を意味する用語として、「糖尿病性腎症」「糖尿病性腎硬化症」「糖尿病性腎合併症」「糖尿病性腎糸球体硬化症」「糖尿病性腎障害」「糖尿病性腎不全」の中で、「糖尿病性腎症」を統制語とし、他の言葉を同義語として登録している。したがって、医中誌Webにおいて、「糖尿病性腎硬化症」で検索をかけると、「糖尿病性腎硬化症」が統制語である「糖尿病性腎症」にマッピングされ、「糖尿病性腎症」がキーワードとして索引されている論文がヒットするのである。

シソーラスにはもう一つの役割があり、統制語同士の階層関係が定められている。たとえば、「水-電解質平衡異常」の下位に「高ナトリウム血症」や「低カリウム血症」などが指定されている(右図)ため、「水-電解質平衡異常」でこれらすべての関連論文をヒットさせることができる。

「医学用語シソーラス」は4年に一度改訂作業が行われているが、日進月歩の医学の世界では4年もすれば、新しいテーマや用語がたくさん出現する。したがって、「医学用語シソーラス」とは別に、医中誌データベースでは、随時、同義語を登録したり、新しい用語については「医中誌フリーキーワード」として登録して最新の論文にも対応している。これらの用語は、「医学用語シソーラス」改訂時に、統制語や同義語として取り込まれるかが検討される。

 

■医中誌Webの検索システムを理解する

具体的に、医中誌Webの検索がどのようにおこなわれているか説明しよう。医中誌Webで「狂牛病」を検索した場合、まず、「狂牛病」と同義語の言葉がシソーラス上にないか調べられる。シソーラス上で「狂牛病」の同義語として登録されている統制語は「ウシ海綿状脳症」であるので、「ウシ海綿状脳症」がキーワードとして索引されている文献がヒットする(459件)。また、同時に「狂牛病」で全文検索がおこなわれる(52件がヒット)。最終的な検索結果はキーワード検索と全文検索の集合和となり、463件がヒットするということになる。実は、このような検索の過程が医中誌Webではきちんと見えるようになっており、検索式として「(ウシ海綿状脳症/TH or 狂牛病/AL)」と表示されている。/のうしろのTHは「シソーラス」、ALは「すべてのフィールド」という意味である。

PubMedにおいても医中誌Webと似たような検索プロセスがおこなわれている。ただし、PubMedのインターフェースポリシーは「なるべくシンプルに」ということであるようで、表面的には検索式を見ることはできない。しかし、「Details」というタブをクリックすると、検索式を見ることができる(右図)。たとえば、「diabetic nephropathy」で検索してみると、検索式は「"diabetic nephropathies"[MeSH Terms] OR diabetic nephropathy[Text Word]」となっており、「diabetic nephropathy」という統制語でのキーワード検索と「diabetic nephropathy」による全検索がおこなわれているというのが確認できる。

 

■シソーラスを使って検索ヒット数を上げる

シソーラスを理解した上で、検索ヒット率を上げるための工夫を紹介しよう。日本語固有の問題を考えた場合、医学用語シソーラスの存在は非常に大きい。日本語の医学用語の場合、原文のままアルファベットで表記したり、カタカナで表記したり、様々な訳語が付けられることがあるからである。たとえば、アンギオテンシンⅡ受容体拮抗薬について調べたいとする。実際に、「アンギオテンシンⅡ受容体拮抗薬」で検索してみると、なんと、ヒット数は0である。一瞬、目を疑うが、実は、これには日本語特有の問題が隠れている。医中誌データベースではローマ数字を扱うことができないので、この場合、ローマ数字のⅡを大文字の「I」二つとして入力する必要がある。「アンギオテンシンII受容体拮抗薬」と入力すると、4596件がヒットする。こういった問題は他にもあって、ギリシャ文字などは扱うのが難しい。NFκ-B(nuclear factor κ-B)を意図して、「NFkappa-B」と入力すると、1件しかヒットしない。統制語はNF-Kappa Bでスラッシュとスペースの位置が微妙に違うのである。

では、このように予想外にヒット数が低く、どのような用語で検索すればよいのかわからないといったケースではどうしたらよいだろうか?その場合は、統制語が何かを調べるとよい。統制語を調べるにはアドバンスドモードの「候補語辞書の参照」をクリックしてシソーラスを検索する。たとえば、アンギオテンシンⅡ受容体拮抗薬で検索した場合に、あまりにも少ないヒット数で統制語にたどり着いていないことが予想されれば、該当する統制語を調べる。「候補語辞書の参照」の検索窓に「アンギオテンシン」だけ入力して参照ボタンをクリックすれば、「アンギオテンシン」を含むたくさんの同義語、統制語が登場する。それによれば、「アンギオテンシンⅡ受容体拮抗薬」の統制語が「Angiotensin II Receptor Antagonists」であることがわかる。「Angiotensin II Receptor Antagonists」にチェックを入れて「採用」ボタンを押せば、「Angiotensin II Receptor Antagonists/TH」が検索窓にはいって、もっともヒット率の高い検索ができる。NFκ-Bの場合、「nuclear factor」でシソーラス検索すれば、「NF-Kappa B」が統制語であることがわかる。

 

■絞り込みを上手におこなう

シソーラスを使うことによって、より多くの文献をヒットすることができるが、実際にはかなりの数(数千)がヒットしてしまい、自分が探している文献にたどり着くためには、そこから上手に絞り込みをおこなっていく必要がある。絞り込むためには、条件を複数組み合わせることによっておこなうことが基本となるが、その際には、検索履歴を使うと便利である。また、「絞り込み検索へ」というボタンを押すと「絞り込み検索画面」が開き(右図)、検索結果を様々な条件で絞り込むことが可能である。特に、医中誌データベースは会議録を多く含んでいるので、会議録を除外したいときには、「論文種類」の「会議録除く」にチェックを入れて絞り込むだけで、かなり絞り込むことができる。また、私の場合、医中誌Webで検索するときには、日本語で書かれた総説記事を探すことが多いのだが、その場合は、「論文種類」の「総説」と「解説」にチェックを入れて絞り込むと便利である。

 

■その他の小技

その他、いくつか検索達人になるための小技を紹介しよう。

・ダブルクォーテーション
医中誌Webではスペースや記号を含む検索語を検索する場合は、一工夫が必要である。たとえば、「amino acids」で検索する場合は、このまま「amino acids」と入力すると、医中誌Webではスペースはandと解釈されるので、「amino」の検索結果と「acids」の検索結果の集合和が検索され2,098件がヒットする。それを避けるためには、"amino acids"という具合にダブルクォーテーションで囲めばよく、こうすれば目的のものが検索され14,560件がヒットする。

・論理演算子
医中誌Webの場合、空白で検索語を切った場合、andと判断される。論理演算子として、論理積(and/スペース/*)、論理和(or/+)、論理差(not)、()が使用できる。

・フィールドの指定
検索語の末尾に/とフィールド名を付けることで検索するフィールドを指定することができる。TH(統制語)、AB(抄録)、AU(著者名)、IN(所属機関)、JN(収載誌名)、TI(タイトル)、AL(All Field)などである。

・完全一致検索
「田中明」という著者名で検索をかけると、487件がヒットし、その中には、「田中明」だけでなく、「田中明彦」「田中明美」などが含まれてしまっている。「田中明」のみを検索したい場合は、検索語全体を[ ]で囲み、フィールドを指定する。つまり、[田中明]/AUを検索窓に入力すればよい。この場合、196件がヒットした。ちなみに、著者名で検索するときには姓と名の間にスペースは入れない。また、英語雑誌の著者名はちょっと扱いが特殊である。ローマ字の著者名もスペースなしで続ける必要がある。たとえば、Yutaka Kobayashiの場合は、KobayashiYutakaで検索する。Kobayashi Yutakaとすると、KobayashiとYutakaの集合和になってしまうので、ものすごい数の検索がヒットしてしまう。ちなみに、2002年以降はすべての著者の名前が入力されているが、それ以前は、必ずしもすべての著者の名前がデータベースに入力されているわけではないので注意されたい。

 

■全文テキストへのリンク

最後に、もう一つ。検索効率という話ではないが、全文テキストへのアクセスという話をしておく。近年、医学データベースにおいては、全文テキストへのリンクというのが重要な機能となっている。医中誌WebもVer4から、全文テキストへのリンク機能が追加された。検索結果にはオンラインジャーナル等へのリンク、図書館の所蔵検索システムOPAC(Online Public Access Catalogue)へのリンクが張られている。日本語医学文献の場合、まだ全文テキストのオンライン公開が十分には進んでいないが、メディカルオンライン(メテオインターゲートの国内医学雑誌の全文PDF配信サービス)、PubMed、Cross Ref(世界の主要な学術出版社が共同で運営している電子ジャーナルのリンク情報管理提供システム)、Pier Online(サンメディアがホスティングするオンラインジャーナルサイト)、CiNii(国立情報学研究所の論文情報ポータルサイトCiNiiとの相互リンク)のリンクが張られている。今後、日本語文献の全文テキストの公開も進んでいくと思われ、使い心地もよくなっていくことであろう。全文テキストのオンライン公開が進んでいない状況では、各図書館における所蔵状況がわかることは便利であるが、それに関してはOPAC連携によって機能が果たされている(ただし、機関ごとの事前の登録が必要)。検索結果にあるOPACのリンクをクリックするとOPAC検索がダイレクトにおこなわれる。また、機関が所蔵している雑誌だけに所蔵アイコンを表示することもできる。

今回のエッセイを書くに当たり、多くの資料を提供してくださったNPO医学中央雑誌刊行会の松田真美様に感謝いたします。

以上、医学のあゆみ220巻11号「医中誌Webの検索達人をめざす」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.23

医家向け電脳道具箱その弐「医学中央雑誌刊行会訪問記」

■医学中央雑誌刊行会を訪問した

医学中央雑誌(医中誌)といえば、日本語文献データベースのほとんど唯一無二の存在。医学英語文献を探すならPubMed、医学和文文献を探すなら医中誌Webというくらい、医師・医学研究者にはなくてはならない存在である。今回、医中誌を発行しているNPO法人医学中央雑誌刊行会を訪問し、お話しを伺う機会があった。医学情報データベースの裏側を見ることができる貴重な機会であったので紹介したい。

 

■個人事業として始まった医中誌

医中誌は1903年(明治36年)に刊行された抄録誌である(図1)。医中誌の初代の主幹、尼子四郎(1865〜1930)は、1887年に広島医学校を卒業後、芸備医学会(現在の広島医学会)創立に関わるなどの活動を経て、1903年に東京の谷中で開業、すぐに千駄木に移り、同年、医中誌を刊行した。この千駄木での開業時代に、同じ町内に住んでいた夏目漱石に主治医として、また友人として親しんだ。「吾輩は猫である」の登場人物「甘木先生」のモデルは尼子四郎であったとされている。

創刊当時の医中誌の編集・発行の作業は家内工業的であったが、二代目理事長、尼子富士郎(1928-1972年、医学中央雑誌刊行会理事長、医中誌発行の功績により多くの賞を受賞した)の時代になっても、編集・発行作業の方法は創刊時とそれほど変わらなかったらしい。現在の医学中央雑誌刊行会は、「こんなところに!」というような杉並区高井戸の閑静な住宅街にひっそりと建っている(図2)。現在の社屋は二代目の理事長であった尼子富士郎氏の自宅あとに建てられたもので、改築される前は尼子富士郎氏の自宅を兼ねていた。尼子富士郎氏は高井戸にある浴風会病院の医長を兼務しており、浴風会病院と自宅兼事務所を往復する日々を送っていた。文献の採択、抄録の編集、校正については、すべて尼子富士郎氏が目を通していたという。

医中誌創刊時の年間収録文献数は2000件弱(収載誌約60誌)で、月1回の発行だったが、現在では、年間収録文献数は30万件を超えている(収載誌約2400誌)。医中誌の形態は時の流れとともに変わってきており、長い間冊子体として提供されていたが、1992年よりCD-ROM版の提供が始まり、2000年よりインターネットによる医中誌Webの提供が始まると、読む雑誌というより、検索のためのデータベースとしての意味合いが強くなってきた。そして、冊子体での発行は2002年終了、CD-ROM版の提供も2006年3月に終了、現在ではインターネットによる医中誌Web(法人向け、図3)、医中誌パーソナルWeb(個人向け)による提供のみとなっている。医中誌データベースは長い間、そして現在においても、医学、歯学、薬学、看護学、獣医学および関連領域の国内の最大の文献データベースとして活用されている。

 

■医中誌の抄録は第三者抄録が中心

今回、医中誌データベースの作製過程を伺ったのだが、データベースが完全電子化され、閲覧もインターネットベースになっているにもかかわらず、データベース作製の過程において多くのステップに人手がかかっているということに驚いた。出版社からデジタルデータが送られてきてそれをデータベースに流し込んでいるという、ほとんど自動化されている作業を私はイメージしていた。しかし、日本の出版社の電子化が遅れていることなど、様々な要因によって、自動化できない部分が多いとのことであった。

また、恥ずかしながら私が知らなかったのが、医中誌データベースに掲載される抄録の多くが第三者抄録であるという点であった。Medlineでは原文の抄録がそのまま抄録として収載されているが、医中誌データベースでは長い間にわたって第三者抄録を原則としていた。第三者抄録とは専門家である第三者が論文を読み、独自に抄録をまとめたものである。医中誌データベースに収載されているデータは原著論文の他に総説、解説記事、会議録など多岐にわたるのが特徴であるが、原著論文には原則として抄録を付けることになっている。おおよそ90%の原著論文には抄録が付与されている。その他、総説や解説などにも場合によっては抄録が付与される。近年では、学会、出版社の了解を得て、著者が書いた抄録(著者抄録)をそのまま掲載する方向で進んでいるが、現在でも、抄録のうち著者抄録は3割にとどまり、7割が第三者抄録である。また、日本の学会誌が発行している英文誌も医中誌データベースに収録されるが、その場合、日本語の第三者抄録を付けることになっている。このあたりは日本語で情報を提供するという医中誌データベースのこだわりが感じられる。著者抄録と第三者抄録の見分け方は、医中誌Webで抄録の末尾に「著者抄録」と但し書きがついているものが著者抄録であり、但し書きがついていないのが、第三者抄録である。

 

■実際に文献を見ながらインデクシングがおこなわれる

データベースの機能を高めるためにインデクシングという作業が重要である。インデクシングとは、医学中央雑誌刊行会発行の「医学用語シソーラス」に基づいて、各文献にキーワード、副標目、チェックタグ、研究デザインタグなどを付与する作業である。「医学用語シソーラス」と、膨大な同義語が登録されている用語辞書を元に、タイトルからキーワードの自動抽出がおこなわれるが、最終的には、インデクサーが実際の文献に目を通しながら、キーワードを付与するという、これまた手作業である。実際にインデクシングを行うのは職員約10名、契約者約20名のインデクサーで、毎月25000件あまりの文献にインデクシングをおこなっている。一人のインデクサーが1日に100件近くの文献にインデクシングをおこなっていることになる。

 

■医中誌データベースの作製過程

では、医学中央雑誌データベースがどのようにして作られているのか、具体的な作業を紹介する。

(1)資料の収集と採択
医中誌データベースに収録される文献情報のもととなる資料は国内の大学、研究所、病院などから発行されている紀要や学内誌、各学会が発行する会議録、医学系出版社が発行する商業誌、公共資料や講演集などで、現在は約2400誌を数える。資料の半数は学会、大学、病院、出版社からの寄贈であり、半数は購入したものである。資料の採択は1〜2ヶ月に一度の検討会で決められている。

(2)文献の採択
届いた資料に掲載された論文、記事のうちどれをデータベースにのせるのかを担当者が決める。たとえば、掲載されている論文でも医学と関連が薄いと思われる論文(たとえば、野生動物の生態)は採択されない。また、インタビュー記事や書評などは採択されない。採択された文献には論文種類が指定され、同時に抄録が付与されるかどうかが決められる。

(3)書誌情報の入力
文献の書誌情報の入力は外部の専門の業者に依頼している。業者によって入力されたデータは医中誌データベース作成システムにのせられ、以降の作業はローカルネットワークシステム上でおこなわれる。また、この段階のデータは<Pre 医中誌>として公開される。なお、Medlineの場合、書誌情報、著者抄録などは出版者側からデジタルデータで渡されることが大半であるが、日本の場合、少しずつそのようなケースも増えているが、今でも多くの文献は書誌情報の入力が必要とのことである。

(4)抄録の作成
書誌情報の入力と並行して抄録の作成がおこなわれる。抄録が存在し、学会、出版社からの了解が得られれば著者抄録が収録される。その他の場合は、外部の専門家(50名ほどの抄録作成者がいる)に依頼して第三者抄録を作成する。

(5)インデクシング
データ作成の最終段階としてインデクシングがおこなわれる(図4)。インデクシングでは、医学中央雑誌発行の「医学用語シソーラス」に基づいて、キーワード、副標目、チェックタグ、研究デザインタグを付与される。インデクシングが終了すると、毎月1日と16日に完成データとして追加される。

(1)〜(5)の行程に、最短で1ヶ月、平均3〜4ヶ月かかっている。今後、この行程をどれだけ短くできるかが現在の課題とのことである。

以上、医中誌データベースの作製過程について紹介したが、抄録誌の刊行、データベースの運営は経済的にも困難が伴うことは想像に難くない。諸外国においてはそのほとんどが公共機関に依存している中、100年を超える長きにわたって独自の情報を提供してきた医学中央雑誌刊行会の活動に敬意を払いたい。また、日本語文献特有の困難がある中、高い検索ヒット率を確保している医中誌データベースの中身に強い興味を持った。その秘密については次回紹介させて頂きたいと思う。

今回のエッセイを書くに当たり、多くの資料を提供してくださったNPO法人医学中央雑誌刊行会の松田真美様に感謝いたします。

 

以上、医学のあゆみ220巻7号「医学中央雑誌刊行会訪問記」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.21

医家向け電脳道具箱その壱「Google Scholarを使い倒す」

■Google Scholarは学術情報に特化した検索エンジン

「ググル」といえば、「Googleで検索すること」というくらい、検索エンジンとしてGoogleは普及している。Google社は、Google検索以外にも数多くのwebサービスを提供している。その中に、Google Scholar(http://scholar.google.com/)という検索サービスがあるのをご存じだろうか。

Google Scholarは学術情報に特化した検索エンジンである。通常のGoogle検索はネット上のあらゆるドキュメントを検索対象としているが、Google Scholarは検索対象を学術論文、学位論文、書籍、学術出版会社や学会、学術機関からの抄録や論文といった学術情報に絞っていることが最大の特徴である。Google Scholarは検索対象が学術情報に限られているだけでなく、通常のGoogle検索にはないユニークな機能を提供している。

 

■Google Scholarで論文のインパクトファクターが簡単にわかる?

Google Scholarのユニークな機能の一つが文献の引用関係を表示する機能である。Google Scholarの検索結果にリストアップされる各文献データには、「引用元 ○○」というリンクがついており、その文献が他のどの文献で引用されているか、また、他の論文に引用された回数が表示される。わかりやすく言えば、各文献データの「インパクトファクター」が一目でわかるのである。

インパクトファクターは、雑誌ごとの掲載論文1報あたりの年間の平均引用回数を指標化したものであり、毎年、トムソンサイエンティフィック社の引用文献データベースWeb of Scienceに収録されるデータを元に算出されている。また、各論文ごとの引用回数や引用している論文へのリンクもWeb of Scienceで調べることができ、「Times Cited」というリンクで表現されている。Google Scholarの「引用元 ○○」というリンクはWeb of Scienceの「Times Cited」というリンクとほぼ同じものといえる。ただし、Web of Scienceで計算された引用回数とGoogle Scholarで表示された引用回数はまったく同じではない。両者では集計に用いる雑誌が異なるし、雑誌収載にあたって審査をおこない、公開しているWeb of Scienceに対し、Google Scholarの検索対象雑誌は明らかになっていない。しかし、Web of Scienceは契約料がとても高いデータベースで、契約をしていない大学図書館も多い。無料で引用関係が調べられるデータベースは現在のところ、Google Scholarしかなく、その点だけでもGoogle Scholarの存在価値は高いといえる。

 

■Google Scholarは逆引き検索ができる

また、Google Scholarの引用文献へのリンクは、逆引き検索として利用できる。「逆引き検索」とは何か、例を挙げて説明する。2000年にNature誌に掲載された論文Aに興味を持ち、その論文に関連した論文を探したいとする。2000年以前の関連論文は論文Aの最後にある引用文献リストから見つけることができる。しかし、論文Aの研究データが、その後、どのように発展していったのか、2000年以降の関連論文を見つけるのは大変なことである。せいぜいPubMedでキーワードなどを使って再検索するくらいしか方法はない。しかし、Google Scholarの「引用元 ○○」のリンクをクリックすれば、論文Aが発表されたあとに論文Aを引用した論文の一覧を見ることができるので、その後の研究の進展状況、最新の関連論文を見つけることができる。このような逆引き検索は使い始めるととても便利なものである。

 

■裏技その1:Google Scholarを英語論文を書く際のお供に

ここまで話をしたGoogle Scholarの便利な機能はすでにWeb of Scienceに搭載されている機能である。しかもWeb of Scienceの方が正確であり、Web of Scienceを使える環境にいる方には、メリットとはいえない。しかし、Google ScholarがPubMedやWeb of Scienceに対して持っている大きなアドバンテージが一つある。それは、PubMedとWeb of Scienceが主に抄録を対象にして検索をかけているのに対して、Google Scholarは全文を対象にして検索をかけているという点である。そこで、全文検索であるメリットを生かしたGoogle Scholarの裏技を2つ紹介する。

ひとつは、英語論文を書く際の例文辞書として有用ということである。英語論文を書くときには、「本当にこんないいまわしでよいのか」、「前置詞はこれでよいのか」といった不安がつきまとう。そんなとき、Google Scholarが役立つのである。たとえば、「最もヒトの慢性腎炎に近いモデル」という英語のフレーズを作るのに、「a model most resembling human chronic nephritis」という文章を考えたとする。こんな表現でよかったかと心配になったら、"model most resembling"をGoogle Scholarにかけてみる。 このときかならずダブルクォーテーション(")でくくってフレーズ検索にすることがポイントである。Google Scholarでは、ストップワーズ(冠詞や前置詞など頻繁に使われる単語、記号、文字など)を無視するが、”でくくった場合は、ストップワーズは無視されない。また、通常検索では、model、most、resemblingがどこかにでている文章が検索されるが、"でくくれば、まさにその語順のものだけが検索される。実際に"model most resembling"で検索してみると、1件しかヒットしない。間違いではなさそうだが、こなれた表現ではないのかと思い、"model that most resembles"で検索してみたら、今度は27件がマッチした。検索結果画面に表示されるページ数は、検索をかけた表現が、どの程度、一般的に使われているか把握する目安となる。この場合、"model that most resembles"の方が一般的ということがわかる。

適切な前置詞探しは得意中の得意である。この場合、アスターリスク(*)を使う。ダブルクォーテーションマークをつけてフレーズ検索にした場合、アスターリスクは1文字のワイルドカードとして機能する。たとえば、mechanismとapoptosisを結ぶ前置詞はofかforか?こういった場合は、アスターリスクが有効である。
"mechanis * apoptosis"で検索すると、4040件がヒットし、圧倒的にofが多く、一部forなどが見られる。実際にどのくらいの頻度で使われているのかを調べるために、"mechanis of apoptosis"で再検索すると3110件、"mechanis for apoptosis"で再検索すると314件がヒットした。ということで、ofが一般的なようである。また、他にもinvolvingが見つかり、場合によっては、こっちの方がしっくり来る場合もある。

こうした巨大な英語例文集としての使い方は、Googleを使ってもいいのだが、英語論文に使う英語は、英語論文に限って探した方が、ぴったりの表現を探しやすいので、Google Scholarがおすすめである。

 

■裏技その2:Google Scholarは研究にも役立つ

さて、もう一つの裏技が、実験で使う試料の情報を得るための検索エンジンとしての使い方である。「免疫組織化学の抗体をどこから手に入れればよいのか」、「薬剤を投与するのにどのくらいの量を使えばよいのか」、こんな疑問を見事に解消してくれる。たとえば、Covance社が出している抗Cre recombinase抗体が免疫組織に使えるのかどうか調べたいとする。PubMedで「cre antibody covance」を検索しても一つも文献が引っかからないが、Google Scholarでは337件もひっかかる。そのリンクをたどれば、実際にこの抗体が免疫組織化学で使われているという報告があるかすぐにわかる。さらに、その論文には、実験ための条件やプロトコールが書かれているので大変参考になる。

 

■Google Scholarは進化し続ける

と、ここまで、Google Scholarの使い方を紹介してきたが、実はGoogle Scholarは執筆時点で未だベーター版である。Google Scholarがベーター版として最初に公開されたのが、2004年。その後、少しずつ機能が追加され進化し続けている。2006年4月には、「Recent articles」というソートオプションが追加された。それまでGoogle Scholarでの検索結果は、関連度の高い順、つまり、被引用数の高い順に並んでいた。当然のことながら、古い論文ほど被引用回数が多くなるので、検索結果の先頭の方には、古い論文が並ぶことになる。検索結果を新しいものから順番に並べられないことは、Google Scholarの欠点の一つだったわけだが、その欠点が一部解消した。2006年7月には、Google Scholarの日本語版が開始された。これによって、日本語での検索が可能になった。ただし、日本語の論文の電子化およびwebへの掲載が進んでいないこと、PubMedに相当するような日本語の論文検索データベースが存在しないこともあり、使い物になるにはもう少し時間がかかると思われる。2006年8月には、指定した図書館へのリンクが追加された。このように、次々と機能が追加され、使いやすくなっている。

Google Scholarは、それだけですべてまかなえるわけではないが、PubMedや他のデータベースと併用しながら、うまく使っていきたいデータベースである。

 

以上、医学のあゆみ220巻3号掲載「Google Scholarを使い倒す」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.19

「電脳道具箱」全10回終了

2007年1月から、週刊医学のあゆみ誌上で、月1回のペースで「電脳道具箱」というタイトルでエッセイを書かせていただきました。本当は、月1回で12回で終了する予定だったのですが、途中、さぼってしまい、最終的に10回ということになりました。私がいうのも何ですが、とてもおもしろい記事になっています。第10回掲載号が1/19より書店に並びますので、是非、ご覧下さい。

出版社の許可を得て、古い物から順番にこのサイトで掲載することを許可いただきましたので、順次掲載していく予定です。

  1. Google Scholarを使い倒す」220巻3号(2007年1月20日発行号)
  2. 医学中央雑誌刊行会訪問記」220巻7号(2007年2月17日発行号)
  3. 医中誌Webの検索達人をめざす」220巻11号(2007年3月17日発行号)
  4. 最新論文を見逃さないための小道具達」221巻3号(2007年4月21日発行号)
  5. ソーシャルブックマークの可能性」221巻7号(2007年5月19日発行号)
  6. 「インパクトファクターを正しく理解する」221巻10号(2007年6月9日発行号)
  7. 「インパクトファクターで研究者の業績評価ができるか」222巻3号(2007年7月21日発行号)
  8. 「Keynoteで人とは違ったプレゼンテーションを」222巻11号(2007年9月15日発行号)
  9. 「学会ポスター大判1枚刷りに挑戦」223巻11号(2007年12月15日発行号)
  10. 「これだけは守りたいプレゼンテーション10の原則」224巻3号(2008年1月19日発行号)

アーカイブ

過去ログ一覧