Aveces pasa en los texto que quedan palabras repetidas como ” texto es es” pocas veces esto tiene un significado así que podemos encontrarlas y si gustamos eliminarlas.
Acá les dejo el código para encontrar dichas palabras:
/// <summary>
/// find number words repet in text
/// </summary>
/// <param name="strWord">word to find</param>
/// <param name="bolUpperLowerCase"></param>
/// <returns>Match property width find or null if not find</returns>
public List<Match> FindWordRepetContinue(string strWord, bool bolIgnoreUppercaseLowercase)
{
// Define a regular expression for repeated words.
Regex rx = new Regex(@"\b(?<word>\w+)\s+(\k<word>)\b",
RegexOptions.Compiled | RegexOptions.IgnoreCase);
List<Match> lstmatch = new List<Match>();
// Find matches.
MatchCollection matches = rx.Matches(TextOriginal);
foreach (Match item in matches)
{
if (bolIgnoreUppercaseLowercase)
{
string strTempValue = item.Value.ToLower();
if (strTempValue.ToLower().Contains(strWord.ToLower()))
lstmatch.Add(item);
}
else
{
if (item.Value.ToLower().Contains(strWord.ToLower()))
lstmatch.Add(item);
}
}
return lstmatch;
}
recuerden que pueden encontrar la librería completa en https://github.com/Mteheran/TextManager