What entity types does Limina detect?

Over 50 entity types covering PII, PHI, and PCI across 52 languages. Standard entities include names, addresses, phone numbers, emails, dates of birth, and government IDs. Healthcare-specific detection covers medical record numbers, prescription identifiers, and clinical codes. Financial entities include credit cards, bank accounts, and transaction IDs. We also catch region-specific identifiers like Canadian SINs, Japanese My Number IDs, UK NHS numbers, and EU tax identifiers.

How does data linking work?

Data linking uses coreference resolution to connect names, abbreviations, and variations so nothing slips through during de-identification.

Can I customize detection for our specific use case?

Yes. You can adjust detection in several ways depending on what you need. Start by choosing which of our 50+ entity types to scan for. If you only care about health data, enable PHI entities and skip everything else. If you need GDPR compliance, use our preset entity group that covers all GDPR-defined personal data. You can also add regex patterns to catch domain-specific identifiers like internal employee IDs, claim numbers, or product codes that follow a predictable format. For entities that need context to identify (not just a pattern), we can adjust our models with de-identified examples that resemble your data. Custom entity training is available on select plans.

How does Limina compare to general-purpose NER tools?

Limina uses context-aware ML to identify PII, PHI, and PCI the way a trained human would, with less than half the error rate of AWS Comprehend, Google DLP, and Microsoft Presidio.

What formats and data sources does Limina work with?

Limina works with structured, unstructured, and semi-structured data including text, PDFs, images, audio, DOCX, and DICOM formats across 52 languages.

データの匿名化

識別情報は削除。意味はそのまま保持。

最も制限の厳しいデータを、環境外に出すことなく、AI・分析・研究のための活用データへ変換します。

はじめましょう

信頼されている用途

プラットフォーム

制限データから活用可能な状態へ

AIモデルの構築、パートナーとのデータ共有、監査対応など、コンプライアンスを満たしながら活用できるデータを実現する3つのステップ。テキスト、文書、画像、音声に対応し、52以上の言語で利用できます。

重要な情報を検出

文脈を理解する機械学習モデルが、訓練を受けた人間のように50以上のエンティティタイプにわたるPII、PHI、PCIを特定します。さらに、共参照解析により、名前、略称、表記のバリエーションを関連付け、見逃しを防ぎます。

ユースケースに合わせて変換

機密データの取り扱い方法を選択可能：マスキング、仮名化、可逆的トークン化、またはデータセットの統計的特性を維持する合成データへの置換。エンティティタイプやワークフローごとに設定できます。

お客様の環境に展開

単一のコンテナ。お客様のクラウド、VPC、オンプレミス環境に展開可能。実行はDockerコマンド2つで完了。データは環境外に出ることはなく、HIPAA、GDPR、PCI-DSSなどの監査対応可能な出力を提供。

実世界データに対応して設計

日本語の通話文字起こし、フランス語の臨床試験文書、スキャンされたドイツ語PDF、数百万の音声ファイル、カスタマーチャットでのコードスイッチング。実運用で発生するあらゆるデータに対応可能です。

お問い合わせ

ほとんどのツールはパターンを照合します。私たちは文脈を読み取ります。

ルールや正規表現は不要。文脈を理解する機械学習が、訓練を受けた人間のように50以上のエンティティタイプにわたるPII、PHI、PCIを特定します。AWS Comprehend、Google DLP、Microsoft Presidioの半分以下の誤検出率です。

データはお客様の環境を離れることはありません

コンテナベースの展開により、すべての処理はVPC内またはオンプレミス環境で完結。サードパーティによるアクセスも、外部へのデータ送信も一切発生しません。

数か月かかっていたコンプライアンス作業を数分で完了

以前は手作業のレビュー、100以上の正規表現スクリプト、バグ報告用の専用Slackチャンネルが必要だった作業が、今では大規模に自動化されます。GPU上で毎秒70,000語を処理可能です。

あらゆるデータ。あらゆる形式。あらゆる言語。

構造化、非構造化、半構造化。テキスト、PDF、画像、音声、DOCX、DICOM。フランス語、ドイツ語、日本語、北京語を含む52言語対応。データの形式がどのようなものであっても、Liminaが処理します。

デフォルトで監査対応可能

トロント大学出身のプライバシーおよび機械学習の専門家によって開発。出力はHIPAAセーフハーバーおよびエキスパート・ディターミネーション要件を満たすよう設計されており、監査担当者も安心して確認を進めることができます。

顧客の勝利

プロビデンス・ヘルス

99.5%以上

対象となるPHIエンティティに対する精度

0

データを第三者に公開された

発送済み

AI搭載の医師アシスタント

AIの準備は整っていました。問題はデータでした。

多くの価値ある臨床データは、AIモデルに安全に利用するにはPHIが多すぎたため、長年活用されないままでした。ProvidenceはEHRデータや会話の文字起こしを活用して医師向けのスマートアシスタントを構築したいと考えていましたが、プライバシー要件のためプロジェクトは停滞していました。

Liminaがそれを実現しました。

Liminaは、Providenceの自社環境内で医師の会話やEHR記録からPHIを自動的に削除しました。Providenceは主要なクラウドプロバイダーも評価しましたが、データ利用に関する懸念から採用を見送りました。コンテナによる展開により、機密データがインフラの外に出ることはありませんでした。

Liminaの導入は非常にスムーズで、当社のデータセットからすべてのPIIを除去するためにまさに必要としていたものでした。

ウェイン・フォーリー

シニアソフトウェア
開発マネージャー、
プロビデンス

はじめましょう

制限データの活用をすぐに開始しますか？

ユースケースについて当社チームにご相談ください。ほとんどの顧客は、数か月ではなく数日で稼働を開始しています。

お問い合わせ

よくある質問

Liminaはどのようなエンティティタイプを検出しますか？

52言語にわたり、PII、PHI、PCIを含む50以上のエンティティタイプに対応しています。標準的なエンティティには、氏名、住所、電話番号、メールアドレス、生年月日、政府発行IDなどが含まれます。医療特有の検出では、医療記録番号、処方識別子、臨床コードなどをカバーしています。金融関連のエンティティには、クレジットカード番号、銀行口座番号、取引IDなどが含まれます。

また、カナダのSIN、日本のマイナンバー、英国のNHS番号、EUの税識別番号など、地域特有の識別子も検出できます。エンティティの完全な一覧や、言語ごとの検出機能の詳細については、ドキュメントをご覧ください。

データリンクはどのように機能しますか？

共参照解析は、テキスト内で同じ人物・場所・物を指しているエンティティ同士を結び付けます。たとえば、文書内で「Dr. Sarah Chen」と記載され、後に「その医師」と参照された場合、それらを同一の対象として関連付けます。

さらに、関係抽出（リレーション抽出）は、エンティティ同士がどのように関連しているかを特定します。たとえば、どの生年月日、出身地、親族関係がどの患者に属しているかを明らかにします。

特定のユースケースに合わせて検出をカスタマイズできますか？

はい。必要に応じて、いくつかの方法で検出設定を調整できます。まず、当社が提供する50以上のエンティティタイプの中から、スキャン対象を選択できます。医療データのみを扱う場合はPHIエンティティだけを有効にし、それ以外は無効にすることが可能です。GDPR対応が必要な場合は、GDPRで定義された個人データを網羅するプリセットのエンティティグループを利用できます。また、正規表現（regex）パターンを追加して、社内の従業員ID、請求番号、製品コードなど、特定の形式に従うドメイン固有の識別子を検出することもできます。たとえば、従業員IDが常に「EMP-12345」のような形式である場合、そのパターンをブロックフィルターとして追加することで、機密データとして検出できます。さらに、単なるパターンではなく文脈が必要なエンティティについては、お客様のデータに似せた匿名化サンプルを用いてモデルを調整することも可能です。これは、カスタム医療用語、地域特有の識別子、業界特有の専門用語など、基本モデルでは見逃される可能性があるケースに有効です。

カスタムエンティティのトレーニングは、特定のプランで利用可能です。

Liminaは汎用のNERツールと比べてどのように違いますか？

約45,000語のデータを複数の実世界ドメインでテストし、Liminaを主要クラウドプロバイダーの汎用PII検出製品と比較しました。その結果は、専門化の重要性を示しています。

汎用ソリューションでは、実際のデータに含まれるPIIエンティティの13.8％～46.5％を見逃しています。一方、Liminaの見逃し率は同じデータセットで0.2％～7％です。見逃されたPIIがデータ漏えい、規制上の罰金、顧客信頼の喪失につながる可能性があることを考えると、この差は非常に重要です。

PII検出の課題に6年間集中して開発を続けてきたことで、より広い用途向けに作られた汎用製品とは根本的に異なる結果を実現しています。過去6年間、POC（概念実証）で他製品と直接比較されてきましたが、その結果は一貫しています。顧客が自社データで精度をテストすると、最終的にLiminaを選ぶケースがほとんどです。

ある多国籍保険会社が日本語データで他製品をテストした際、それらは完全に機能しませんでしたが、Liminaは求められていた精度を実現しました。

詳細な方法論、結果、比較については、ホワイトペーパーをダウンロードしてご確認ください。

Liminaはどのような形式やデータソースに対応していますか？

Liminaは、REST APIとコンテナ化されたデプロイメントを通じて既存のデータインフラに統合できます。データベース、Snowflakeのようなデータウェアハウス、クラウドストレージ（S3、Azure Blob、GCS）、ストリーミングパイプライン、またはAPIコールが可能なあらゆるシステムからデータを処理できます。

テキストおよびドキュメント：プレーンテキスト、PDF（ネイティブおよびスキャン）、Word文書（DOC/DOCX）、PowerPoint（PPT/PPTX）、Excel（XLS/XLSX）を処理します。さらに、CSV、JSON、XMLにも対応しています。

画像：画像処理では、視覚的なPIIとテキストのPIIの両方を扱います。顔やナンバープレートを自動検出し、OCRを実行して画像内のテキストを検出します。対応形式はJPEG、PNG、TIFF、BMP、GIFです。

音声：WAV、MP3、M4Aなどの音声ファイルでは、まず自動音声認識で文字起こしを生成し、その文字起こしをPII検出のためにスキャンします。

構造化データ：データベース、CSV、JSONなどの表形式データを処理する際、Liminaは列ヘッダーを文脈として使用します。たとえば「PatientNotes」という列が「DateOfBirth」の隣にある場合、各フィールドの内容を理解し、ランダムな数字のように見えるPIIも検出できます。

コンテナをクラウド環境またはオンプレミスに展開することで、データをお客様のインフラ内に保持できます。

現在も新しいフォーマットやデプロイオプションを継続的に追加しています。ここに記載されていない形式が必要な場合は、お問い合わせいただければ対応予定についてご案内します。