識別情報は削除。意味はそのまま保持。
最も制限の厳しいデータを、環境外に出すことなく、AI・分析・研究のための活用データへ変換します。

信頼されている用途
.png)

.webp)



.png)
.png)

.webp)



.avif)
制限データから活用可能な状態へ
AIモデルの構築、パートナーとのデータ共有、監査対応など、コンプライアンスを満たしながら活用できるデータを実現する3つのステップ。テキスト、文書、画像、音声に対応し、52以上の言語で利用できます。
.png)
重要な情報を検出
.png)
ユースケースに合わせて変換
.png)
お客様の環境に展開
実世界データに対応して設計
日本語の通話文字起こし、フランス語の臨床試験文書、スキャンされたドイツ語PDF、数百万の音声ファイル、カスタマーチャットでのコードスイッチング。実運用で発生するあらゆるデータに対応可能です。

ほとんどのツールはパターンを照合します。私たちは文脈を読み取ります。

データはお客様の環境を離れることはありません

数か月かかっていたコンプライアンス作業を数分で完了

あらゆるデータ。あらゆる形式。あらゆる言語。

デフォルトで監査対応可能
プロビデンス・ヘルス
99.5%以上
0
発送済み
AIの準備は整っていました。問題はデータでした。
多くの価値ある臨床データは、AIモデルに安全に利用するにはPHIが多すぎたため、長年活用されないままでした。ProvidenceはEHRデータや会話の文字起こしを活用して医師向けのスマートアシスタントを構築したいと考えていましたが、プライバシー要件のためプロジェクトは停滞していました。
Liminaがそれを実現しました。
Liminaは、Providenceの自社環境内で医師の会話やEHR記録からPHIを自動的に削除しました。Providenceは主要なクラウドプロバイダーも評価しましたが、データ利用に関する懸念から採用を見送りました。コンテナによる展開により、機密データがインフラの外に出ることはありませんでした。

Liminaの導入は非常にスムーズで、当社のデータセットからすべてのPIIを除去するためにまさに必要としていたものでした。
開発マネージャー、
プロビデンス
よくある質問
Liminaはどのようなエンティティタイプを検出しますか?
Liminaはどのようなエンティティタイプを検出しますか?
52言語にわたり、PII、PHI、PCIを含む50以上のエンティティタイプに対応しています。標準的なエンティティには、氏名、住所、電話番号、メールアドレス、生年月日、政府発行IDなどが含まれます。医療特有の検出では、医療記録番号、処方識別子、臨床コードなどをカバーしています。金融関連のエンティティには、クレジットカード番号、銀行口座番号、取引IDなどが含まれます。
また、カナダのSIN、日本のマイナンバー、英国のNHS番号、EUの税識別番号など、地域特有の識別子も検出できます。エンティティの完全な一覧や、言語ごとの検出機能の詳細については、ドキュメントをご覧ください。
データリンクはどのように機能しますか?
データリンクはどのように機能しますか?
共参照解析は、テキスト内で同じ人物・場所・物を指しているエンティティ同士を結び付けます。たとえば、文書内で「Dr. Sarah Chen」と記載され、後に「その医師」と参照された場合、それらを同一の対象として関連付けます。
さらに、関係抽出(リレーション抽出)は、エンティティ同士がどのように関連しているかを特定します。たとえば、どの生年月日、出身地、親族関係がどの患者に属しているかを明らかにします。
特定のユースケースに合わせて検出をカスタマイズできますか?
特定のユースケースに合わせて検出をカスタマイズできますか?
はい。必要に応じて、いくつかの方法で検出設定を調整できます。まず、当社が提供する50以上のエンティティタイプの中から、スキャン対象を選択できます。医療データのみを扱う場合はPHIエンティティだけを有効にし、それ以外は無効にすることが可能です。GDPR対応が必要な場合は、GDPRで定義された個人データを網羅するプリセットのエンティティグループを利用できます。また、正規表現(regex)パターンを追加して、社内の従業員ID、請求番号、製品コードなど、特定の形式に従うドメイン固有の識別子を検出することもできます。たとえば、従業員IDが常に「EMP-12345」のような形式である場合、そのパターンをブロックフィルターとして追加することで、機密データとして検出できます。さらに、単なるパターンではなく文脈が必要なエンティティについては、お客様のデータに似せた匿名化サンプルを用いてモデルを調整することも可能です。これは、カスタム医療用語、地域特有の識別子、業界特有の専門用語など、基本モデルでは見逃される可能性があるケースに有効です。
カスタムエンティティのトレーニングは、特定のプランで利用可能です。
Liminaは汎用のNERツールと比べてどのように違いますか?
Liminaは汎用のNERツールと比べてどのように違いますか?
約45,000語のデータを複数の実世界ドメインでテストし、Liminaを主要クラウドプロバイダーの汎用PII検出製品と比較しました。その結果は、専門化の重要性を示しています。
汎用ソリューションでは、実際のデータに含まれるPIIエンティティの13.8%~46.5%を見逃しています。一方、Liminaの見逃し率は同じデータセットで0.2%~7%です。見逃されたPIIがデータ漏えい、規制上の罰金、顧客信頼の喪失につながる可能性があることを考えると、この差は非常に重要です。
PII検出の課題に6年間集中して開発を続けてきたことで、より広い用途向けに作られた汎用製品とは根本的に異なる結果を実現しています。過去6年間、POC(概念実証)で他製品と直接比較されてきましたが、その結果は一貫しています。顧客が自社データで精度をテストすると、最終的にLiminaを選ぶケースがほとんどです。
ある多国籍保険会社が日本語データで他製品をテストした際、それらは完全に機能しませんでしたが、Liminaは求められていた精度を実現しました。
詳細な方法論、結果、比較については、ホワイトペーパーをダウンロードしてご確認ください。
Liminaはどのような形式やデータソースに対応していますか?
Liminaはどのような形式やデータソースに対応していますか?
Liminaは、REST APIとコンテナ化されたデプロイメントを通じて既存のデータインフラに統合できます。データベース、Snowflakeのようなデータウェアハウス、クラウドストレージ(S3、Azure Blob、GCS)、ストリーミングパイプライン、またはAPIコールが可能なあらゆるシステムからデータを処理できます。
テキストおよびドキュメント:プレーンテキスト、PDF(ネイティブおよびスキャン)、Word文書(DOC/DOCX)、PowerPoint(PPT/PPTX)、Excel(XLS/XLSX)を処理します。さらに、CSV、JSON、XMLにも対応しています。
画像:画像処理では、視覚的なPIIとテキストのPIIの両方を扱います。顔やナンバープレートを自動検出し、OCRを実行して画像内のテキストを検出します。対応形式はJPEG、PNG、TIFF、BMP、GIFです。
音声:WAV、MP3、M4Aなどの音声ファイルでは、まず自動音声認識で文字起こしを生成し、その文字起こしをPII検出のためにスキャンします。
構造化データ:データベース、CSV、JSONなどの表形式データを処理する際、Liminaは列ヘッダーを文脈として使用します。たとえば「PatientNotes」という列が「DateOfBirth」の隣にある場合、各フィールドの内容を理解し、ランダムな数字のように見えるPIIも検出できます。
コンテナをクラウド環境またはオンプレミスに展開することで、データをお客様のインフラ内に保持できます。
現在も新しいフォーマットやデプロイオプションを継続的に追加しています。ここに記載されていない形式が必要な場合は、お問い合わせいただければ対応予定についてご案内します。


