الاستیکجستجو الاستیکاندازه فیلد جستجو-نحوه محاسبه اندازه ذخیره سازی فیلدهای خاص در یک فهرست

  • 2022-11-11

علاوه بر خواندن این راهنما, توصیه می کنیم شما در بررسی سلامت الاستیک جستجو اجرا. این مشکلات را شناسایی و بهبود عملکرد جستجوی الاستیک خود را با تجزیه و تحلیل اندازه سفال خود را, استخرهای موضوعی, حافظه, عکس های فوری, متن دیسک و بیشتر. بررسی الاستیک جستجو رایگان است و نیازی به نصب ندارد.

علاوه بر خواندن در مورد اندازه زمینه الاستیکجستجو و یادگیری روش های اصلی برای محاسبه اندازه ذخیره سازی از زمینه های خاص در یک شاخص, توصیه می کنیم شما در بررسی سلامت الاستیکجستجو اجرا. این مشکلات را شناسایی و بهبود عملکرد جستجوی الاستیک خود را با تجزیه و تحلیل اندازه سفال خود را, استخرهای موضوعی, حافظه, عکس های فوری, متن دیسک و بیشتر.

بررسی الاستیک جستجو رایگان است و نیازی به نصب ندارد.

بررسی اجمالی

روش های مختلفی برای محاسبه اندازه ذخیره سازی فیلدهای شاخص وجود دارد. در زیر توضیحات 3 روش اصلی وجود دارد:

1. استفاده از واسط کاربری _دیسک

رابط کاربری دیسک از زمان 7.15 در دسترس است و تجزیه و تحلیل میزان استفاده از دیسک هر زمینه از یک شاخص یا جریان داده را فراهم می کند.

ما در اینجا به جزییات نمی پردازیم زیرا اسناد رسمی در حال حاضر خود توضیحی است.

اگر شما در یک نسخه قبل از 7.15, سپس شما را از شانس هستید و شما ممکن است بخواهید برای کشف دو گزینه بعدی.

2. ایجاد شاخص های اختصاصی

ایده این رویکرد ایجاد یک شاخص با همه زمینه ها و همچنین شاخص های خاص فقط با زمینه مورد علاقه با همان نقشه برداری و پیکربندی تنظیم به عنوان شاخص کامل است. سپس با استفاده از رابط کاربری گربه / شاخصها میتوان اندازه نسبی شاخصها را مقایسه کرد و در مورد میزان فضای فیلدهای مربوطه به نتیجهگیری رسید.

اگرچه به خاطر داشته باشید که این فقط یک تقریب تقریبی را فراهم می کند و اندازه شاخص باید قابل توجه باشد (یعنی چند صد مگابایت) تا معنی دار باشد زیرا هر شاخص فضای سربار را می گیرد که مقایسه شاخص های کوچک را بی ربط می کند.

همچنین شایان ذکر است که این رویکرد تنها در صورتی گزینه است که شاخص زمینه های زیادی برای بررسی دقیق نداشته باشد. این روش نیاز به کاربران برای ایجاد یک شاخص در هر زمینه تحت بررسی, که معمولا خوب زمانی که شما چند ده زمینه, اما کمتر مربوط به شاخص با صدها یا هزاران نفر از زمینه است.

در زیر تمام مراحل مورد نیاز برای انجام این روش وجود دارد.

ایجاد نمایه ای که شامل همه زمینه ها باشد

فهرست همه فیلدها شامل موارد زیر است :

  1. نام فیلد نوع متن (با تجزیه و تحلیل استاندارد پیش فرض)
  2. نام.زمینه کلمه کلیدی از نوع کلمه کلیدی (یعنی با استفاده از تجزیه و تحلیل کلمه کلیدی)
  3. فیلد _نام نوع متن با تجزیه و تحلیل گران قیمت ان گرم.

نگاشت فهرست برای همه_فیلدز_ایدکس:

اسناد برای همه_فیلدز_ایدکس :

شما می توانید اسناد را در همه _فیلدز_دکس با استفاده از انبوه انبوه به عنوان زیر نشان داده شده است:

ایجاد نمایه ای که فقط شامل فیلد _نام باشد

در حال حاضر ما یک شاخص است که شامل تنها فیلد مورد نظر ما می خواهیم برای محاسبه ایجاد کنید. صفحه اول _نام_دکس فهرست شامل موارد زیر است:

  1. فیلد _نام نوع متن با تحلیلگر ان-گرم

نگاشت فهرست برای نام اول:

ریندکس:

اکنون برای افزودن اسناد در ابتدا می توانید از ایندکس مجدد برای نمایه سازی اسناد از همه فیلدز_دکس استفاده کنید.

از زمانیکه فیلد نام اول از تحلیلگر ان-گرم با مین_گرم = 1 و حداکثر _گرم = 10 استفاده می کند نشانه های تولید شده عبارتند از:

شما می توانید نشانه های تولید شده با استفاده از رابط های برنامه کاربردی تجزیه و تحلیل را بررسی کنید:

ایجاد نمایه ای که فقط شامل فیلد نام باشد

ایندکس _نام شامل موارد زیر است:

  • نام فیلد نوع متن با تجزیه و تحلیل استاندارد (که تجزیه و تحلیل پیش فرض برای فیلد نوع متن است اگر هیچ تجزیه و تحلیل به صراحت تعریف شده است).

نگاشت فهرست برای نام_ایکس:

ریندکس:

اکنون برای افزودن اسناد در نام_دکس می توانید از ایندکس مجدد برای نمایه سازی اسناد از همه فیلدز_دکس استفاده کنید.

ایجاد یک شاخص است که شامل تنها فیلد نام نوع کلمه کلیدی

فهرست _کلیدواژه _کلیدکس شامل موارد زیر است:

  • نام فیلد نوع کلمه کلیدی که از تجزیه و تحلیل کلمه کلیدی استفاده می کند

نگاشت فهرست برای نام_کلیدواژه:

ریندکس:

برای اضافه کردن اسناد در نام_کلید_دکس شما هم اکنون می توانید با استفاده از ایندکس مجدد به شاخص اسناد از همه_فیلد_دکس.

مقایسه اندازه ذخیره سازی بین شاخص ها

شما می توانید اندازه ذخیره سازی اولیه هر یک از شاخص با استفاده از شاخص گربه رابط کاربری گرافیکی را بررسی کنید:

که به شما اطلاعاتی از 4 شاخص فوق در خوشه شما می دهد تا ایده ای از اندازه تقریبی هر فیلد به شما بدهد:

Comparing the storage size between the indices

یادداشتها:

  1. اندازه ذخیره سازی اولیه 8.6 کیلوبایت است. در مقایسه با دیگر 3 شاخص, این شاخص بیشترین اندازه ذخیره سازی را دارد زیرا شامل تمام متن, کلمه کلیدی, و زمینه های تجزیه و تحلیل ان گرم.
  1. ظرفیت ذخیره سازی اولیه شاخص 7.1 کیلوبایت است زیرا حاوی فیلد نام اول است که از تجزیه و تحلیل ن-گرم استفاده می کند. همانطور که قبلا نشان داده شد, نشانه های متعدد (اعم از 1 به 10) خواهد شد برای هر متن تولید. بنابراین این کار به فضای بیشتری نیاز دارد.
  1. اندازه ذخیره سازی اولیه حدود 5 کیلوبایت است. این به خاطر این واقعیت است که فیلد نام از یک فیلد متنی با یک تحلیلگر استاندارد استفاده می کند که به سادگی در فضای خالی شکسته می شود. در مقابل فیلد نام کلمه کلیدی از تحلیلگر کلمه کلیدی استفاده می کند که از شکستن متن جلوگیری می کند و اجازه می دهد تا به عنوان یک نشانه واحد در نظر گرفته شود.
  1. به اختصار, در نهایت اندازه شاخص بستگی به تعداد و نوع نشانه تولید, که دوباره در تجزیه و تحلیل پیکربندی بستگی دارد. مثال بالا تنها 20 اسناد به منظور نشان دادن تاثیر نشانه ها و تجزیه و تحلیل استفاده می شود. تاثیر بیشتر در یک مجموعه داده بزرگتر خواهد بود. با استفاده از تجزیه و تحلیل رابط کاربری گرافیکی و نمایه سازی مجدد فرایند توصیف, شما می توانید اندازه چند زمینه متن مشکل در شاخص خود را اندازه گیری.

3. با استفاده از ابزار لوقا

لوقا یک ابزار ابزار لوسن که اجازه می دهد تا یک به فهرست است, جستجو و حفظ شاخص ها و اسناد.

به منظور نصب و اجرا, شما نیاز به دانلود نسخه لوقا است که سازگار با نسخه لوسن از الاستیکجستجو خود را نصب کنید. است 7.10 با استفاده از لوسن 8.7.0 (می توان با استفاده از دریافت /), که شما می توانید در پیدا: https://archive. apache. org/dist/lucene/java/8.7.0/

شما هم می توانید دانلود کنید یا لوسن-8.7.0.تگزاس یا لوسن-8.7.0.بسته به اینکه در کدام سیستم عامل هستید زیپ کنید. پس از دانلود و استخراج تاربال یا فایل زیپ, شما می توانید دستورات زیر که ابزار لوقا راه اندازی خواهد شد اجرا:

هنگامی که رابط کاربری گرافیکی نشان می دهد تا, شما باعث می شود به انتخاب پوشه حاوی شاخص به بررسی:

Luke tool - picking the folder containing the index to investigate

هنگامی که شاخص باز می شود, شما می توانید بسیاری از چیزهایی را انجام دهید. اما برای کاری که در دست, شما به سادگی می توانید سر را به زبانه بررسی اجمالی و بازرسی تمام زمینه های شاخص انتخاب. به طور پیش فرض, تمام زمینه ها بر اساس تعداد مدت طبقه بندی شده اند, می دهد که نشانه خوبی در چه مقدار فضای هر رشته در نظر گرفتن در شاخص انتخاب.

با کلیک کردن بر روی هر فیلد در سمت چپ شما شرایط رتبه بندی بالا برای زمینه های که در سمت راست می بینید. تقریبا همان اطلاعاتی است که می توان از اصطلاح بردارها بازیابی کرد اما به شکلی که هضم راحت تری دارد. با استفاده از درصد نسبی و اندازه شاخص کلی, شما می توانید استنباط چه مقدار فضای هر زمینه در نظر گرفتن.

در قسمت سمت راست نیز دیدن فرکانس اصطلاحات برتر رتبه بندی جالب است.

Luke tool - get frequency of the top ranking terms

یادداشت ها و چیزهای خوب برای دانستن

دو مورد زیر نیز قابل توجه است:

  1. این تنها نشانه ای از حدود چه مقدار فضای دیسک مقادیر میدان در حال بدست گرفتن می دهد, اما ما می توانیم هر گونه نتیجه گیری در مورد الزامات مورد نیاز برای اندازه پشته مربوطه رسم نیست , چرا که بستگی به بسیاری از عوامل دیگر (تجزیه و تحلیل, تکمیل, هنجارهای, و غیره).
  2. ناگفته نماند اما این کار را در تولید اجرا نکنید و اطمینان حاصل کنید که فقط در صورت بروز مشکلی از فهرست خود نسخه پشتیبان تهیه کنید.

در هر صورت, لوقا باید برخی از بینش های جالب برای کاری که در دست فراهم, به عنوان مثال.

یافتن و رفع مشکلات جستجو الاستیک

اپستر خودکار تشخیص و رفع مشکلات در جستجوی الاستیک بر اساس تجزیه و تحلیل صدها معیار.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.